#Demis Hassabis
當今 AI 最缺什麼?|DeepMind CEO最新對話實錄
12月17日,Google DeepMind 發佈了DeepMind聯合創始人兼 CEO Demis Hassabis 的專訪。本次對話全面探討了AI從大語言模型向Agentic AI的重心轉移、科學“根節點”問題的破解路徑、AlphaFold 到核聚變的連鎖反應、AGI 實現中“規模擴展”與“創新”的博弈、當前模型“鋸齒狀智能”的本質缺陷、世界模型與模擬在科學發現中的終極價值、從“被動式 AI”向“主動智能體”演進的風險與機遇、後 AGI 時代的經濟重構等話題以及 Demis Hassabis 基於圖靈機極限對人類意識獨特性的思考。Demis Hassabis 指出,儘管 AI 能在國際數學奧林匹克中摘金,卻在簡單的邏輯問題上犯“低級錯誤”,這種“鋸齒狀智能”是現有AI在一致性與推理能力上的缺失,就像一個“狀態不好、隨口胡謅”的人,缺乏像 AlphaGo 那樣“先思考、後行動”的規劃與雙重檢查機制。他強調,單純的知識壓縮不足以通向 AGI,必須補齊線上學習與深度推理這最後 50% 的拼圖。關於Scaling Law“撞牆”,Demis Hassabis 指出:“50% 的精力用於規模擴展,50% 用於創新,這兩者缺一不可”。他認為,我們正處於一個需要將“世界級的工程能力”與“世界級的研究科學”深度融合的新階段。不同於單純的資料堆砌,他主張回歸 AlphaGo 的演算法範式,通過在基礎模型之上疊加搜尋與規劃能力,並利用“世界模型”在模擬環境中通過無限的合成資料來突破資料枯竭的瓶頸。針對 DeepMind 的長期願景,他認為,大語言模型雖能理解語義,卻難以捕捉物理世界的因果力學。真正的理解意味著能夠“生成逼真的世界”,而精確的模擬將是科學發現的終極工具。他構想了一個通過模擬重演進化乃至社會動態的沙盒,不僅用於訓練具備好奇心的智能體,更試圖以此解開生命起源與意識誕生的謎題。他坦言,這種對物理法則的深度封裝,是 AI 從虛擬走向機器人實體與通用助手的必經之路。01AI 解鎖科學的連鎖反應這對 AI 來說是非凡的一年,我們目睹了重心從大語言模型轉移到了代理式 AI,以及 AI 在藥物研發、機器人和無人駕駛中的應用。記得我第一次採訪你時,你談到了“根節點”問題,也就是利用 AI 來解鎖下游利益的理念。你想給我們更新一下這些方面的進展嗎?有那些成果近在咫尺,又有那些問題已經解決或接近解決了?Demis Hassabis:最有力的證明就是 AlphaFold。想到 AlphaFold 2 向世界發佈快五周年了,這真不可思議。這證明瞭解決這種根節點類型的問題是可能的。我們現在正在探索所有其他領域,比如材料科學,我很想搞定室溫超導、更好的電池這類東西。我認為這些都是指日可待的,還有各種更好的材料。我們也正在致力於核聚變。我們剛宣佈了與 Commonwealth Fusion Systems 更深度的合作夥伴關係。我們之前就有合作,但現在更加深入了。我認為他們可能是致力於傳統托卡馬克反應堆的最優秀的初創公司,可能是最接近提出可行方案的團隊。我們希望能加速這一處理程序,幫助他們控制磁體中的電漿體,甚至可能協助進行一些材料設計,這非常令人興奮。此外,我們也在與 Google Quantum AI 團隊的量子計算同事們合作,他們正在做著驚人的工作。我們利用機器學習幫助他們開發糾錯碼。也許有一天,他們也會反過來幫助我們。聚變那個項目特別關鍵,如果我們能搞定這個,是不是會讓現在的很多問題迎刃而解?Demis Hassabis:(關於核聚變的影響)聚變一直是“聖盃”。當然,我認為太陽能也非常有前景,實際上它就是利用天空中的那個聚變反應堆。但如果我們要擁有模組化的聚變反應堆,這種幾乎無限、可再生、清潔能源的承諾顯然會改變一切。這就是“聖盃”,當然,這也是我們助力解決氣候問題的方式之一。絕對會。它會開啟許多其他的可能性,這就是為什麼我們將它視為一個“根節點”。當然,它直接有助於解決能源、污染等問題,緩解氣候危機。而且,如果能源真的實現可再生、清潔且超級便宜甚至幾乎免費,那麼許多其他事情就會變得可行。比如水資源獲取,因為我們幾乎可以在任何地方通過海水淡化廠獲取淡水。甚至製造火箭燃料,海水中含有大量的氫和氧,那基本上就是火箭燃料,只是將它們分離需要消耗大量能量。但如果能源便宜、可再生且清潔,為什麼不做呢?你可以讓它 24/7 全天候生產。02“鋸齒狀智能”與 AGI 的關鍵拼圖你也看到了很多變化,AI 被應用於數學領域,在國際數學奧林匹克競賽中贏得獎牌。然而與此同時,這些模型在高中數學題上卻可能犯相當基礎的錯誤。為什麼會存在這種悖論?Demis Hassabis:這可能是最迷人的事情之一,也可能是我們需要解決的關鍵問題之一,只有解決了它才能達到 AGI。正如你所說,我們和其他團隊已經取得了很多成功,在國際數學奧林匹克中摘金。你看那些題目,都是只有世界頂尖學生才能解出的超級難題。但另一方面,如果你換一種方式提問,它會在邏輯問題上犯一些相當低級的錯誤。它們甚至還不能真正下好一盤像樣的國際象棋,這很令人驚訝。所以在一致性方面仍然缺失了一些東西。我認為這正是你對通用智能,即 AGI 的期望:它應該在各個方面保持一致。有時人們稱之為“鋸齒狀智能”。它們在某些方面非常強,甚至達到博士水平,但在其他方面甚至不如高中水平。所以這些系統的表現仍然非常不均衡。它們在某些維度上令人印象深刻,但在其他方面仍相當基礎。我們必須填補這些差距。關於原因有各種理論。根據具體情況,甚至可能與圖像被感知和Token 化的方式有關。有時候,當你讓它數單詞裡的字母時,它實際上甚至沒有獲取到所有的字母;有時它會數錯,但這可能是因為它並沒有看到每一個單獨的字母。這些問題各有不同的原因,每一個都可以被修復,然後我們再看還剩下什麼問題。但我認為一致性,以及另一件事——推理和思考,是關鍵。我們現在的AI在推理階段會花更多時間“思考”,也更擅長輸出答案。但在以下方面還不夠穩定:它是否有效地利用了那段思考時間來進行雙重檢查,以及是否使用工具來驗證輸出結果?我認為我們正在朝著這個方向努力,但也許只走了 50% 的路程。我也在想 AlphaGo 和後來 AlphaZero 的故事,你們剝離了所有人類經驗,卻發現模型實際上變得更強了。在你正在建立的模型中,是否存在類似的科學或數學版本的演進?Demis Hassabis:(關於技術演進路線)我認為我們今天試圖建構的更像是 AlphaGo。實際上,這些大語言模型、基礎模型,是從全人類的知識起步的——我們在網際網路上發佈的所有內容,如今幾乎涵蓋了一切,然後將這些知識壓縮成某種有用的製品,供它們查詢和泛化。但我確實認為,我們仍處於早期階段,即在這些模型之上疊加搜尋或思考能力,就像 AlphaGo 那樣,利用模型來引導有用的推理路徑、規劃思路,然後針對當下的問題想出最佳解決方案。所以我不覺得我們目前受限於人類知識的極限。我認為目前的主要問題是,我們還不知道如何像使用 AlphaGo 那樣,以完全可靠的方式充分利用這些系統。當然,AlphaGo 要容易得多,因為它是一個遊戲。我認為一旦你擁有了 AlphaGo,你就可以回過頭來,就像我們開發 Alpha 系列時那樣,做一個 AlphaZero,讓它開始自我探索知識。我認為那將是下一步,但這顯然更難。所以我認為最好先嘗試用某種類似 AlphaGo 的系統邁出第一步,然後再考慮類似 AlphaZero 的系統。這也是當今AI所缺失的東西之一,就是線上學習和持續學習的能力。我們訓練這些系統,平衡它們,對它們進行後訓練,然後把它們投放到世界上,但它們不會像我們一樣在真實世界中持續學習。我認為這是這些系統所需的另一個關鍵缺失部分,也是 AGI 所必需的。03想要實現 AGI,規模擴展與創新缺一不可我看到你最近說過一句話:“如果由我決定,我們會讓 AI 在實驗室裡待得更久一些,做更多像 AlphaFold 這樣的事情,也許先治癒癌症之類的。”你認為因為沒有走那條更慢的路,我們失去了一些東西嗎?Demis Hassabis:我認為我們既有失去也有獲得。我覺得那本來會是一種更純粹的科學方法。至少那是 15、20 年前我最初的計畫,當時幾乎還沒人研究 AI。我們正準備創辦 DeepMind,人們覺得研究這個簡直是瘋了,但我們堅信不疑。當時的想法是,如果我們取得進展,我們會繼續循序漸進地建構 AGI,對每一步及其安全性非常謹慎,分析系統在做什麼等等。但在此期間,你不必等到 AGI 到來後才讓它發揮作用。你可以將技術分支出來,以真正造福社會的方式使用它,即推進科學和醫學。這實際上正是我們用 AlphaFold 所做的。它本身不是一個基礎模型,也不是通用模型,但它使用了相同的技術——Transformer 和其他技術,並將其與該領域的特定知識相結合。所以我曾設想完成一大批這類事情,這將帶來巨大的益處。你會向世界發佈這些成果,就像我們發佈 AlphaFold 一樣,並確實做到治癒癌症等事情,同時我們在實驗室裡繼續致力於更偏向 AGI 的路徑。現在的結局證明,聊天機器人在規模化上是可行的,人們也發現它們很有用。如今它們已經演變成了這些基礎模型,能做的不僅僅是聊天和處理文字,顯然包括 Gemini,它們可以處理圖像、視訊等各種事情。這在商業和產品層面上也非常成功。我也很喜歡這一點。我一直夢想擁有一個終極助手,能在日常生活中幫助你,讓你更高效,甚至可能保護你的大腦空間免受干擾,讓你能專注並進入心流狀態,因為今天的社交媒體充滿了噪音。我認為為你工作的 AI 實際上可以在這方面幫助我們。所以我認為這是好事。但這創造了一種相當瘋狂的競賽環境,許多商業組織甚至國家都在急於改進並超越彼此。這使得同時進行那種嚴謹的科學研究變得困難。我們試圖兩者兼顧,我認為我們正在把握這種平衡。另一方面,這種發展方式也有很多優點,資源湧入這個領域無疑加速了進展。而且,公眾實際上只比絕對前沿技術落後幾個月就能使用到這些東西。所以每個人都有機會親身感受 AI 將會是什麼樣子,這是件好事,也能讓政府更好地理解這一點。(關於Scaling是否撞牆)奇怪的是,去年這個時候,有很多關於Scaling最終會撞牆的討論,說我們會耗盡資料。然而,Gemini 1.5 剛剛發佈,它在一系列不同的基準測試中都處於領先地位。這怎麼可能呢?不是應該有擴展撞牆的問題嗎?Demis Hassabis:我認為很多人是這麼想的,特別是當其他公司的進展較慢時。但我認為我們從未真正看到過那樣的牆。我想說的是,也許存在收益遞減。當我說這個詞時,人們只會想到“那就沒有收益了”,好像它是 0 或 1 的關係,要麼是指數級增長,要麼是漸近線。不,實際上,在這兩種機制之間有很大的空間,我認為我們就處於這兩者之間。這不像在三四年前的早期階段那樣,你每發佈一個新的迭代,所有基準測試的性能都會翻倍。但你正在獲得顯著的改進,就像我們在 Gemini 1.5 中看到的那樣,這非常值得投資,且有很好的投資回報,所以我們沒有看到任何放緩的跡象。確實存在一些問題,比如:我們是否會耗盡可用的資料?但有辦法繞過這個問題,比如合成資料。這些AI已經足夠好,它們可以開始生成自己的資料,特別是在程式設計和數學等某些領域,你可以驗證答案的正確性。從某種意義上說,你可以生產無限的資料。雖然所有這些都是研究問題,但我認為這是我們一直擁有的優勢,就是我們一直堅持研究為先。我們擁有最廣度和最深度的研究人才儲備,一直如此。如果你回顧過去十年的進步——無論是 Transformer 還是 AlphaGo、AlphaZero,以及我們剛才討論的任何事情,它們都出自 Google 或 DeepMind。所以我一直說,如果需要更多的創新,尤其是科學上的創新,那麼我堅信我們就是做這件事的地方,就像我們在過去 15 年裡為許多重大突破所做的那樣。我認為這正是正在發生的事情。實際上,我很喜歡當局面變得更困難的時候。因為那時你不僅需要世界級的工程能力,還需要將其與世界級的研究和科學結合起來,而這正是我們所擅長的。除此之外,我們還擁有世界級基礎設施的優勢,利用我們的 TPU 和我們長期投資的其他資源。所以我認為這種組合讓我們既能處於創新的前沿,也能在規模擴展方面保持領先。實際上,你可以認為我們將50% 的精力用於Scaling,另外 50% 用於創新。我敢打賭,你需要這兩者才能達到 AGI。04模型越先進,就越能清晰地認知自身的知識邊界我們在 Gemini 1.5 這樣出色的模型中仍然觀察到的一點,就是所謂的“幻覺”問題。我記得有一個指標顯示,模型在理應拒絕回答時仍然給出了答案。你們能否建構一個系統,讓 Gemini 像 AlphaFold 那樣給出置信度分數?Demis Hassabis:我認為可以。這確實是目前缺失的環節之一,但我認為我們正在接近這個目標。模型越先進,就越能清晰地認知自身的知識邊界。因此它們會變得更可靠,你可以依靠它們進行某種形式的“內省”,或者進行更深度的思考,從而自我意識到對某個答案的不確定性。我們要解決的是如何通過訓練,讓它能夠將這種“不確定”作為一個合理的答案輸出。目前情況正在改善,但有時模型仍會強迫自己回答本不該回答的問題,這就導致了幻覺。目前很多幻覺都屬於這種類型。這是一個必須解決的缺失環節。你說得對,正如我們在 AlphaFold 上解決的那樣,但這顯然是在一個更受限的範圍內。Demis Hassabis:確實有對下一個 Token 的預測,這就是它的工作原理。但這並不能告訴你整體層面的資訊:即你對整個事實或整個陳述有多大信心?這就是我們需要利用思考和規劃步驟來回顧剛剛輸出內容的原因。目前有點像在跟一個狀態不好的人聊天,他們只是隨口說出腦海中蹦出的第一件事。大多數時候這沒問題,但在處理難題時,你會希望停下來暫停片刻,回顧並調整正要說的內容。也許這種方式在當今世界越來越少見,但這仍然是更好的交流方式。你可以這樣理解,模型需要在這方面做得更好。05世界模型與模擬的終極目標今年早些時候我們採訪了你們的 Genie 團隊。那是很棒的工作。告訴我為什麼你如此關注模擬?世界模型能做到那些大語言模型做不到的事情?Demis Hassabis:實際上,除了 AI 之外,世界模型和模擬可能是我長期以來最大的熱情所在。當然在我們最近像 Genie 這樣的工作中,這一切都融合在了一起。我認為大語言模型能夠理解關於世界的很多東西,實際上比我們預期的要多,甚至比我預期的還要多。因為語言所包含的資訊遠比我們想像的豐富,甚至超出了語言學家的預期。這些新系統已經證明了這一點。但關於世界的空間動態、空間感知,以及物理環境的機械運作原理,仍有很多難以用語言描述的內容,通常也不會在文字語料庫中被描述。這其中很多都與從經驗學習有關。有很多事情你無法真正描述,只能去體驗。無論是運動角度、氣味還是這類感測資訊,用任何語言描述都非常困難。所以我認為圍繞這方面有一整套內容。如果希望機器人技術能夠奏效,或者希望通用助手能在日常生活中,比如通過眼鏡或手機,伴隨並幫助你,而不僅僅是在電腦上,你就需要這種類型的世界理解能力。世界模型正是其核心所在。我們所說的世界模型,是指這種理解世界力學因果效應的模型,包括直觀物理學,事物如何移動、如何表現。現在我們在視訊模型中看到了很多這方面的內容。如何測試你是否擁有這種理解?如果你能生成逼真的世界,那麼在某種意義上你必須已經理解了,系統必須已經封裝了世界的許多力學原理。這就是為什麼 Genie 和 Veo 這些視訊模型和互動式世界模型令人印象深刻,它們標誌著我們正朝著通用世界模型邁進。希望在某個時間點,我們可以將其應用於機器人技術和通用助手。當然我最喜歡的事情之一,也是我肯定會去做的,就是將其重新應用迴游戲和遊戲模擬中,創造終極遊戲。這也許一直是我潛意識裡的計畫。所有這一切就是為了那個?Demis Hassabis:沒錯。這對遊戲來說將是驚人的。科學領域呢?你能在那個領域使用它嗎?Demis Hassabis:可以。對於科學而言,我認為建立複雜領域的模型——無論是原子層面的材料、生物學,還是像天氣這樣的物理系統,理解這些系統的一種方式是從原始資料中學習模擬。假設你有一堆原始資料,比如關於天氣的(顯然我們正在進行一些驚人的天氣項目),然後你有一個模型能學習這些動態,並能比暴力計算更高效地重建這些動態。所以我認為,模擬和某種形式的世界模型在科學和數學方面有巨大的潛力。06讓 AI 在彼此的“思想”中互動,創造無限的訓練樣本但通過這種方式,你也可以把一個智能體扔進那個模擬世界裡,對嗎?你的 Genie 團隊曾引用過一句非常漂亮的話:“幾乎沒有任何重大發明的先決條件是為了該發明而存在的。”他們談論的是將智能體放入這些模擬環境中,並允許它們以好奇心為主要動力進行探索。Demis Hassabis:對,這也是這些世界模型另一個真正令人興奮的用途。我們有另一個項目叫 SIMA,近期剛發佈了 SIMA 2。在這個項目中,我們將化身或智能體放入虛擬世界。它可以是一個普通的商業遊戲,或者像《無人深空》這樣複雜的開放世界太空遊戲。因為底層有 Gemini,你可以指導它,只需與智能體交談並給它佈置任務。但後來我們想:如果我們把 Genie 接入 SIMA 會不會很有趣?有點像是把一個 SIMA 智能體扔進另一個正在即時創造世界的 AI 中?現在這兩個AI 實際上是在彼此的“思想”中互動。SIMA 智能體試圖在這個世界中導航,而對 Genie 來說那只是一個玩家和一個化身,它不在乎那是另一個 AI,它只是圍繞著 SIMA 試圖做的事情生成世界。看到它們互動真是太神奇了。我認為這可能是一個有趣訓練循環的開端,在這裡我們幾乎擁有無限的訓練樣本。因為無論 SIMA 智能體試圖學習什麼,Genie 基本上都可以即時創造障礙、阻礙和環境來幫助它學習。你可以想像一整個設定和解決任務的世界,數百萬個任務自動生成並且難度不斷增加。所以我們可能會嘗試建立這樣一個循環。顯然這些 SIMA 智能體可以成為很好的遊戲伴侶,它們學到的一些東西對機器人技術也可能很有用。不過你創造的那些世界,如何確保它們真的逼真?如何確保你不會最終得到看似合理但實際上違背物理法則的結果?Demis Hassabis:(關於物理逼真度)這是一個很好的問題,也可能是一個隱患。這基本上又是幻覺問題。有些幻覺是好的,因為它意味著你可能會創造出有趣和新穎的東西。實際上如果你試圖做創造性的事情,或者讓AI創造新事物,一點幻覺可能是好的。但你希望這是有意為之,你可以稍微打開“幻覺轉盤”或創造性探索的開關。但是,當你試圖訓練 SIMA 智能體時,你並不希望 Genie 產生錯誤的物理幻覺。所以實際上我們現在正在做的是建構一個物理基準測試,我們可以使用物理模擬非常準確的遊戲引擎,來建立大量相當簡單的實驗,就像你在高中物理實驗室裡做的那樣。比如讓小球滾下不同的軌道,看它們跑多快。從非常基礎的層面上進行剖析,比如牛頓三大運動定律:模型是否封裝了這些定律?無論是 Veo 還是 Genie,這些模型是否 100% 精準地封裝了物理學?目前它們還沒有,只是一種近似。當你隨意觀看時它們看起來很逼真,但對於機器人技術等領域來說,它們還不夠準確無法依賴。所以這是下一步。既然我們已經擁有了這些非常有趣的模型,現在的目標之一就是減少幻覺,使它們更加紮實。對於物理學,這可能涉及生成大量的真值資料,比如簡單的鐘擺視訊——當兩個鐘擺相互繞行時會發生什麼,但很快你就會遇到三體問題,那是無論如何都無法精確解析的。所以我認為這會很有趣。但令人驚嘆的是,當你觀察像 Veo 這樣的視訊模型時,僅僅看它處理反射和液體的方式,至少在肉眼看來已經精準得令人難以置信。所以下一步實際上是超越人類業餘愛好者的感知範圍。它真的能經得起嚴格的物理級實驗嗎?07精確的模擬將是科學的一大福音,有助於理解生命的起源我知道你思考這些模擬世界已經很長時間了。我回顧了我們第一次採訪,在採訪中你說過,你非常喜歡這樣一個理論:意識是進化的產物。在我們進化路徑的某個節點,理解另一個體的內部狀態具有優勢,然後我們將這種能力轉向了自己。這是否讓你對在模擬內部運行一個進化中的智能體感到好奇?Demis Hassabis:當然,我很想在某個時候運行那個實驗。某種程度上重演進化,甚至重演社會動態。聖菲研究所過去常在小型網格世界中運行很多很酷的實驗。我過去很喜歡其中一些,主要是經濟學家在嘗試運行小型人工社會。他們發現,只要讓智能體在正確的激勵結構下運行足夠長的時間,市場、銀行等各種有趣的事物就會湧現出來。所以我認為那真的會很酷,也有助於理解生命的起源和意識的起源。這是我從一開始投身 AI 工作的最大熱情之一:我認為你需要這類工具來真正理解我們從何而來,以及這些現象究竟是什麼。我認為模擬是實現這一目標的最強大工具之一,因為你可以從統計學角度來進行研究。你可以用略微不同的初始條件運行模擬很多次,甚至運行數百萬次,然後以一種非常受控的實驗方式理解微小的差異是什麼。這在現實世界中對於我們想回答的任何真正有趣的問題來說,顯然是非常難以做到的。所以我認為精確的模擬將是科學的一大福音。考慮到我們已經發現了這些模型的湧現屬性,它們擁有某種我們沒預料到的概念性理解,你在運行這種模擬時是否也必須非常小心?Demis Hassabis:我認為必須如此。是的。但模擬的另一個好處是,你可以在相當安全的沙盒中運行它們。也許最終你會希望對它們進行物理隔離。當然你可以全天候監控模擬中發生的事情,而且你有權訪問所有資料。所以我們可能需要 AI 工具來幫助我們監控模擬,因為它們將變得非常複雜。如果你想像大量的 AI 在模擬中運行,裡面會有太多事情發生,任何人類科學家都很難跟上。但我們或許可以使用其他 AI 來幫助我們自動分析並標記模擬中任何有趣或令人擔憂的事情。08AI 泡沫與 Gemini 的“科學家”人格上次我們交談時,你說過你認為 AI 在短期內被過度炒作,但在長期內被低估了。我知道今年有很多關於 AI 泡沫的討論。如果出現泡沫並且破裂了,會發生什麼?Demis Hassabis:我仍然認同這一觀點:短期內過度炒作,而在中長期內,其實際的變革能力仍然被低估了。是的,現在當然有很多關於 AI 泡沫的討論。在我看來,這並非非此即彼的二元問題。我認為 AI 生態系統的某些部分可能處於泡沫之中。一個例子就是初創公司的種子輪融資,有些公司甚至還沒起步一出場就獲得了數百億美元的估值。這種情況是否可持續是有趣的,我的猜測是可能不會,至少總體上不會。所以這確實是一個存在泡沫的領域。然後人們顯然也在擔心大型科技公司的估值和其他事情。我認為這背後有很多真實的業務支撐,但這還有待觀察。也許對於任何具有難以置信的變革性和深刻影響的新技術——當然 AI 可能是最深刻的——你都會經歷這種矯枉過正。當我們創辦 DeepMind 時沒人相信它,沒人認為這是可能的。人們在想,“AI 到底有什麼用?”快進 10 到 15 年,現在這似乎成了商界唯一談論的話題。所以這幾乎是對之前反應不足的一種過度反應。我認為這是自然的。我們在網際網路時代看到過,在移動網際網路時代看到過,我認為我們在 AI 領域正在看到或將再次看到這一點。我不太擔心“我們是否處於泡沫中”,因為作為 Google DeepMind 的領導者,我們的工作是確保無論發生什麼,我們都能從中脫穎而出,變得更強大。我們的定位非常好,無論那種情況,我們都處於極佳的位置。所以如果趨勢像現在這樣繼續下去,太棒了,我們將繼續推進所有正在做的偉大事情、實驗以及朝著 AGI 的進展。如果出現回呼也沒關係。我認為我們也處於一個很好的位置,因為我們擁有自己的 TPU 全端基礎設施。我們還有所有這些令人難以置信的 Google 產品,以及由此產生的利潤,可以將我們的 AI 植入其中。而且我們正在這樣做,搜尋業務正被“AI 概覽”徹底革新。底層由 Gemini 驅動的 AI 模式。我們正在關注 Workspace、電子郵件、YouTube。Chrome 中也有所有這些驚人的功能。有很多這樣的機會,我們可以看到應用 Gemini 是唾手可得的果實。當然還有 Gemini App,它現在也表現得非常好,以及通用助手的願景。所以有新產品出現,我認為隨著時間的推移它們將變得超級有價值。但我們不必完全依賴那個。我們可以只為現有的生態系統賦能,我認為這就是過去一年發生的事情,我們現在的效率已經變得非常高了。人們花大量時間與聊天機器人交談,以至於最終陷入了自我激進化的怪圈。你要如何阻止這種情況?你如何在建構 AI 時讓使用者處於自己宇宙的中心,但同時又不至於創造出一個封閉的個人資訊繭房?Demis Hassabis:(關於資訊繭房與人格設定)這是一個非常微妙的平衡,我認為這是我們作為一個行業必須正確處理的最重要的事情之一。我們已經看到了某些過度迎合使用者的AI會帶來什麼後果,或者你會得到那種對使用者非常有害的回聲室強化效應。所以我認為解決這個問題的一部分——實際上這正是我們要用 Gemini 建構的,我對我們的團隊致力打造且我也親自參與的 Gemini 3 人格設定感到非常滿意——就是賦予它一種近乎科學家的個性。它是溫暖、樂於助人、輕鬆的,但同時也是簡潔、切中要害的。它會以一種友好的方式反駁那些不合邏輯的事情,而不是試圖強化“地球是平的”這種觀點。如果你說了這種話,它附和說:“絕妙的主意”,我認為這對社會總體上是沒有好處的。但你必須在這一點和使用者的需求之間取得平衡。因為人們希望這些系統是支援性的,能輔助他們的想法和頭腦風暴,所以你必須拿捏好這個尺度。我認為我們正在開發一門關於個性和人格的科學,研究如何衡量它的行為,以及我們希望它在真實性、幽默感這類維度上處於什麼位置。你可以想像,它出廠時會帶有一種基礎人格。每個人都有自己的偏好,你是希望它更幽默一點還是嚴肅一點,更簡潔一點還是更詳盡一點?人們各有所好,所以你可以在此基礎上加入額外的個性化層。但每個人得到的仍然是那個核心的基礎人格,它堅持科學方法,這是這些AI的全部意義。我們希望人們將這些工具用於科學、醫學和健康問題等領域。我認為這是正確建構這些大語言模型的科學的一部分,我對我們目前的發展方向感到相當滿意。09AGI 的雛形在目前 AI 領域發生的所有事情中,包括語言模型、世界模型等等,什麼最接近你對 AGI 的願景?Demis Hassabis:實際上顯然有 Gemini 3,我認為它非常有能力。但我們上周發佈的 Imagen 3 ,那是我們圖像生成工具的高級版本。真正令人驚嘆的是,它的底層也使用了 Gemini。它不僅能理解圖像,還能在某種程度上理解那些圖像中語義上正在發生什麼。人們才體驗了一周,但我已經在社交媒體上看到了很多關於人們用它做出的很酷的東西。例如,你可以給它一張複雜的飛機或類似的圖片,它可以標記出飛機所有不同部件的圖表,甚至可以將所有不同部件拆解開來進行可視化。它對機械學、物體的構成部件以及材料屬性有某種深度的理解。它現在還可以非常準確地渲染文字。所以我認為這正在朝向一種用於圖像領域的 AGI 邁進。它是一種可以在圖像跨域上做任何事情的通用系統,這非常令人興奮。然後是世界模型的進步,比如 Genie 和 SIMA 以及我們在那裡做的事情。最終我們將不得不把所有這些目前不同且交織的項目匯聚成一個大模型。那個模型可能開始成為原始 AGI 的一個候選者。10工業革命的鏡像與後 AGI 經濟重構我知道你最近一直在閱讀大量關於工業革命的內容。我們是否可以從那段歷史中學到什麼,來試圖減輕這次 AI 變革不可避免會引起的一些破壞?在後 AGI 社會,你對社會應該如何重構,或者可能以何種行得通的方式重構有什麼願景嗎?Demis Hassabis:我認為有很多值得我們學習的地方。這是我們在學校裡會學到的東西,至少在英國是這樣,但往往只是停留在非常表面的層次。對我來說,深入研究它是如何發生的真的很有趣。它的起源、背後的經濟原因,比如紡織工業,實際上第一批電腦的原型可以說就是紡織機,然後演變成了早期 FORTRAN 電腦和大型機使用的打孔卡。有一段時間,英國非常成功,成為了世界紡織業的中心,因為依靠自動化系統,他們可以以極低的成本製造出這些令人驚嘆的高品質產品。然後顯然蒸汽機和所有那些東西也隨之而來。工業革命帶來了許多不可思議的進步。兒童死亡率下降了,現代醫學和衛生條件、工作與生活的分離模式以及這一切的運作方式,都是在工業革命期間確立的。但它也帶來了很多挑戰。這個過程花了相當長的時間,大約一個世紀,不同領域的勞動力在特定時期遭遇了流離失所。社會必須創造新事物,必須建立像工會和其他組織這樣的新機構來重新平衡這種關係。看到整個社會不得不隨著時間推移去適應是令人著迷的,然後就有了現在的現代世界。顯然工業革命有很多利弊,但沒有人會想要回到工業革命之前,如果你想想它帶來的總和,比如西方世界食物和物資的富足,以及現代醫學和現代交通,那都是工業革命的功勞。也許我們可以通過從歷史中學習,提前弄清楚那些脫節和錯位是什麼,也許這次能更早或更有效地減輕這些影響。我們可能必須這麼做,因為這次的不同在於,它可能將比工業革命規模大 10 倍,而且速度可能快 10 倍。它更可能是在十年內展開,而不是一個世紀。(關於經濟重構的願景)是的,我現在花更多時間思考這個問題,實際上 Shane 正在領導這方面的一項工作,去思考後 AGI 世界可能是什麼樣子,以及我們需要為此做什麼準備。我認為社會總體上需要花更多時間思考這個問題,包括經濟學家、社會科學家和政府。就像工業革命一樣,整個工作世界、工作周以及一切都較工業革命前發生了改變,那時更像是農業社會。我認為至少這種程度的改變將再次發生。如果我們需要新的經濟系統、新的經濟模型來從根本上幫助這種轉型,我並不會感到驚訝。然後還有哲學層面的一面:工作會改變,其他事情也會改變。但也許那時我們將已經解決了核聚變,擁有了這種充裕的免費能源,進入了後稀缺社會。那麼金錢會變成什麼樣?也許每個人都更富裕了。但隨後人生的目標會變成什麼?因為很多人從他們的工作中獲得目標感,供養他們的家庭,這是一個非常高尚的目標。我認為其中一些問題從經濟問題混合成了近乎哲學的問題。你是否擔心人們似乎沒有關注,沒有像你希望的那樣快速行動?要讓人們認識到我們需要在這個問題上進行國際合作,需要付出什麼代價?你認為這會需要一個時刻,一個特定事件,讓每個人都猛然警醒並開始關注嗎?Demis Hassabis:我對此很擔心。在一個理想的世界裡,本應該已經有更多的合作了,特別是國際層面的。應該有更多的研究,以及關於這些話題的探索和討論。我實際上非常驚訝目前沒有更多關於這方面的討論。考慮到即使是我們的時間表,即 5 到 10 年,對於建立處理這一問題的機構來說,這個時間也並不長。我的一大擔憂是,現存的機構似乎非常碎片化,並且沒有達到你所需要的那個水平的影響力,所以可能是目前沒有合適的機構來處理這個問題。當然,如果你加上目前世界各地正在發生的地緣政治緊張局勢,合作和協作似乎比以往任何時候都難。只要看看氣候變化,要在與之相關的任何事情上達成協議是多麼困難。我們將拭目以待。我認為隨著賭注變得更高,隨著這些系統變得更強大——也許這是它們作為產品存在的好處之一,那些不從事這項技術工作的普通人將能切身感受到這些東西力量和能力的增長。這隨後將傳導給政府,也許隨著我們更接近 AGI,他們會變得理智起來。(關於喚醒時刻)我希望不需要。大多數主要的實驗室都相當負責任,我們試圖儘可能負責任。如你所知,這一直是我們所做一切的核心。這並不意味著我們會把一切都做對,但我們試圖在我們的方法上儘可能深思熟慮和科學。大多數主要實驗室都在試圖表現得負責任,而且實際上也有很好的商業壓力促使大家負責任。如果你想想 Agent,假設你正在把一個 Agent 租給另一家公司去做某事,那家公司會想知道限制、邊界以及護欄是什麼,以免它們做出不僅僅是搞砸資料之類的壞事。這很好,因為那些不守規矩的草莽式運作將無法獲得生意,企業不會選擇它們。11圖靈機極限與人類的獨特性從長遠來看,在 AGI 之外並邁向ASI時,你認為有一些事情是人類能做而機器永遠無法做到的嗎?所以,對於這些電腦器來說,不存在什麼做不到的事情嗎?Demis Hassabis:這是一個大問題。我覺得這與我最喜歡的話題之一:圖靈機有關。我一直有這種感覺:如果我們建構了 AGI,用它作為心靈的模擬,再把它與真實的心靈進行比較,我們隨後將看到差異在那裡,以及潛在地,什麼是人類心靈中獨特的、保留下來的東西。也許那是創造力,也許是情感,也許是做夢。還有關於意識,關於什麼可能是或可能不是可計算的,外界有很多假設。這回到了圖靈機的問題:圖靈機的極限是什麼?這是我一生的核心問題。我認為我們一直在做的一切,都在某種程度上把圖靈機能做什麼的概念推向極限,包括蛋白質摺疊。結果我不確定極限在那裡,也許根本沒有極限。當然我的量子計算朋友會說有極限,你需要量子電腦來模擬量子系統。但我真的不太確定,我實際上和一些量子領域的專家討論過這個問題,可能是我們需要來自這些量子系統的資料以便建立一個經典的模擬。這又回到了心靈的問題:它全是經典的計算,還是有其他什麼正在發生?像 Roger Penrose 相信大腦中有量子效應。如果確實有,而且那與意識有關,那麼機器將永遠不會擁有那個,至少經典機器不會,我們將不得不等待量子電腦。但如果沒有量子效應,那麼可能沒有任何限制。也許在宇宙中,如果你以正確的方式審視,一切都是計算可解的,因此圖靈機可能能夠建模宇宙中的一切。如果你非要我猜,我會猜是後者。在物理學向我證明事實並非如此之前,我都在這個基礎上開展工作。這麼說吧,到目前為止,在宇宙中還沒有人發現任何不可計算的東西。而且我們已經證明,對於經典電腦今天能做到的事情,比如蛋白質摺疊和圍棋,我們已經遠遠超越了通常複雜性理論家所持的 P=NP 觀點。所以我認為沒人知道那個極限在那裡。歸根結底,我們在 DeepMind 和 Google 所做的,以及我試圖做的,就是找到那個極限。如果把這個想法推演到極限,比如我們坐在這裡,感覺到燈光照在臉上的溫暖,聽見背景裡機器的嗡嗡聲,還有手下桌子的觸感。所有這些都能被經典電腦複製嗎?Demis Hassabis:我認為是可能的。這也正是我喜歡康德的原因。雖然我最喜歡的兩位哲學家是康德和斯賓諾莎,理由各異,但康德認為現實是心智的建構,我認為這是對的。你提到的那些進入感官系統並帶來不同感覺的事物,比如光的溫暖、桌子的觸感,歸根結底全都是資訊。我們就是資訊處理系統,我認為這也是生物學的本質。這正是我們在試圖做的事情:通過把生物學視為一個資訊處理系統,最終治癒所有疾病。我在業餘時間也在研究一些物理理論,認為資訊可能是宇宙的最基本單元,而不是能量或物質。或許最終這些都是可以互換的,只是我們感知的方式不同。但在我們所知的範圍內,所有這些驚人的感測器仍然可以被圖靈機計算。這就是為什麼你的模擬世界如此重要,對吧?Demis Hassabis:沒錯。那是通往真理的一條路徑。我們能模擬的極限是什麼?如果你能模擬它,在某種意義上你就已經理解了它。這種沉重的責任感是否曾讓你感到壓抑?是否曾感到孤獨?有沒有什麼事情對你的衝擊比預期的要大?Demis Hassabis:我睡得不多,部分是因為工作太多,也因為我有睡眠障礙。這其中的情緒非常複雜,因為它令人難以置信地興奮。我基本上在做我曾夢想的一切,我們在應用科學和機器學習等諸多方面都處於科學的絕對前沿。正如所有科學家都知道的那樣,那種身處前沿並首次發現新事物的感覺令人振奮。這種事幾乎每個月都在我們身上發生,太驚人了。當然,Shane 和我以及其他長期從事這項工作的人比任何人都更理解即將發生之事的深遠影響。實際上人們仍然低估了未來十年將會發生什麼,包括像哲學層面的問題:生而為人的意義是什麼,其中什麼才是重要的,所有這些問題都會浮出水面。這是一個巨大的責任。但我們有一個了不起的團隊在思考這些事情。這也算是我一生都在為此訓練的事情。從我早期下國際象棋,然後致力於電腦、遊戲、模擬和神經科學,這一切都是為了這一刻。這與我想像的樣子大致相符,所以我應對壓力的方式就是把這當作一種訓練。(關於意料之外的衝擊)當然有。比如 AlphaGo 的比賽。看著我們破解了圍棋這個曾經美麗的謎團,改變了它。這很有趣,但也讓人感到苦樂參半。我認為最近的語言模型和圖像生成對創造力的影響也是如此。我對創意藝術懷有巨大的尊重和熱情。我和電影導演交流過,這對他們來說也是一個雙重時刻。一方面他們擁有了能將創意原型製作速度提高 10 倍的驚人工具,但另一方面,它是否正在取代某些創造性技能?我認為這種權衡到處都在發生,對於像 AI 這樣強大且具有變革性的技術來說是不可避免的,就像過去的電力和網際網路一樣。人類的歷史就是製造工具的歷史,那是我們熱愛做的事情。我們擁有一個可以理解科學的大腦,這也讓我們擁有貪得無厭的好奇心。我認為這就是生而為人的核心。我從一開始就著了迷,而我回答這一問題的方式就是建構 AI。當你和其他 AI 領袖共處一室時,你們之間會有團結感嗎?那種大家都理解利害關係的感覺?還是說競爭讓你們彼此疏遠?Demis Hassabis:我們都認識彼此,我和他們幾乎所有人都相處得很好。但這很難,因為我們正處於可能有史以來最殘酷的資本主義競爭中。我的投資人朋友說,現在的殘酷程度是網際網路泡沫時代的 10 倍。在很多方面我喜歡這一點,我為競爭而生。但退一步說,我理解並且希望每個人都理解,比起公司的成功,還有更重大的東西處於危急關頭。談到未來十年,你個人最擔憂的時刻是什麼?那你最期待的是什麼?Demis Hassabis:現在的AI我稱之為被動式AI。使用者投入能量提出問題或任務,AI提供總結或答案。這很大程度上是人類主導的。下一個階段是基於 Agent 的AI。未來幾年我們將看到真正可靠的 Agent,它們將是極有能力的助手,但也更加自主。我認為這類系統的風險也會隨之上升。我相當擔心那些AI在兩三年後能做什麼。所以我們在致力於網路安全防禦,以準備應對那樣一個可能有數百萬 Agent 在網際網路上遊蕩的世界。至於期待,我絕對需要放個長假去做科學研究。那怕一周甚至一天也好。我的使命一直是協助世界為了全人類安全地實現 AGI。當我們到達那一點時,當然會有超級智能和後 AGI 時代的經濟社會問題。也許我可以在那裡提供幫助,但我的人生使命核心部分將就此完成。這需要協作,我希望利用我的位置提供幫助。 (數字開物)
36個月大逆轉!他帶著GoogleAI殺回來了,下一步世界模型
ChatGPT發佈距今已近36個月,面對OpenAI的領先,哈薩比斯帶領GoogleAI全面反攻,通過新發佈的Gemini 3強勢回歸。Gemini 3在LM Arena等多個模型榜單登頂,表現優於GPT-5及其他模型,上演了一場完美逆襲。大模型排行榜,你方唱罷我登場。馬斯克的Grok 4.1剛登頂,隨後就被Gemini 3 Pro反超了,上演了一幕AI版的「速度與激情」!Google DeepMind CEO哈薩比斯(Demis Hassabis)哈薩比斯在X平台上興奮地曬出Gemini 3的成績單,稱其「當然地」登頂各大排行榜,並表示這是自己迄今為止最愛的模型。就連奧特曼和馬斯克,也紛紛為Gemini 3點贊。馬斯克連發兩個哭泣的表情包:看來我們要盡快推Grok 4.2了。新發佈的Gemini 3具備領先的推理、多媒體處理和編碼能力,擅長推理、生成視訊和寫程式碼。Google強調,Gemini 3不只是一個更聰明的模型或聊天機器人,更重要的是它從發佈之日起,就開始全面增強Google現有產品,包括其利潤可觀的搜尋業務。它是Google這台龐大的賺錢機器的AI引擎,用哈薩比斯的話說:「我們是Google的動力引擎,現在我們正在讓AI全面接入」。哈薩比斯認為目前確實可能存在AI泡沫的問題,比如許多尚未經過檢驗的初創公司卻拿到了數十億美元的估值。但在他看來,即便是AI泡沫真的破裂,Gemini 3也讓Google有了穿越這場泡沫的底氣。把Google搜尋塞進GeminiGoogle內部,一直有一個把Google搜尋「塞」進Gemini的想法。這一想法,甚至可以追溯到Google早期。當時的Larry Page和Sergey Brin就設想過把整個網際網路都放進AI的「記憶」中,然後再對外提供服務。因此,Google在上下文方面做了大量實驗,並將上下文窗口提升到了100萬個token,目前這個記錄仍沒真正被人打破。哈薩比斯認為,機器理論上可以擁有比人類多幾百萬倍的儲存/記憶空間,但如果只是「天真地」把所有東西暴力存下來,其實並不高效。因此,與Google搜尋「塞」進Gemini相比,Google更多是把Gemini作為現有產品的底層模型向使用者開放。此次Gemini 3一發佈,Google已經正式通過Gemini應用,以及Google搜尋中的AI Overviews功能向使用者開放。據Google母公司Alphabet在7月的季度財報中表示,AI Overviews推動搜尋查詢量提升了10%。同時,Google視覺搜尋也出現了70%的激增,這項功能依賴於Gemini對照片的分析能力。與OpenAI相比,Google的優勢在於其產品「家底」深厚。它擁有包括搜尋、Google地圖、Gmail、雲服務等非常廣泛的基礎產品線。而且,Google很早就開始利用AI來增強其已有產品的能力。這使得它在與OpenAI、xAI、Anthropic等AI廠商的競爭中進可攻,退可守。哈薩比斯表示,「在不利的情況下,我們會更加依靠這些基礎產品;在有利的情況下,我們擁有最全面的佈局和最具前瞻性的研究。」Google也在考慮通過Gemini重啟Google眼鏡(Google Glass)項目。哈薩比斯表示,當時Google眼鏡步子邁得有點超前,缺少一個真正的「殺手級用例」,而通用助手正是這樣一個用例。因此,未來Gemini也將啟動Google以往積累下來的「經驗和遺產」,但是重點會放在「世界理解」上。以Gemini為例,Google一開始就將機器人和眼鏡視為兩個非常重要的應用場景,因此決定走多模態路線。如今,這些押注正在逐漸顯現出成果,Gemini已經在多模態理解上顯現出明顯優勢。除了用AI增強現有和以往的產品之外,Google也在積極利用AI打造越來越受歡迎的新工具。比如,NotebookLM,它可以根據文字材料自動生成播客;AI Studio,可以借助AI快速生成應用原型,等等。此外,Google還探索將這項技術應用到遊戲、機器人等領域。哈薩比斯提到GoogleAI的一個優勢,目前所有產品已經完全跑在Gemini技術堆疊上,實現了從產品到模型的「一體化」。這意味著無論是產品改動,還是模型微調都會容易很多,而且產品也可以更好地學會理解和使用底層模型。目前,哈薩比斯的重要精力,一半是將Gemini應用進一步加速做強,另一方面是將AI融入Google的各條業務線,使之成為Google的「AI動力艙」。「我對這一切非常興奮,目前我們只是剛剛觸及未來可能性的表面,明年會更直觀地看到這些變化」。哈薩比斯表示。被OpenAI「搶跑」後Google正快速趕上Google在AI領域長期投入巨大資源,並取得了一系列關鍵性突破。包括在2017年發現了Transformer模型架構,但沒有將其商業化,而是選擇把它公開。一直到2022年,OpenAI基於Transformer的ChatGPT爆火,動搖了Google的核心搜尋業務,才令它深受震動,開始奮起直追。有意思的是,OpenAI的崛起,不僅喚醒了Google在AI領域的加速發展,甚至還間接幫助Google避免了被分拆,出售其搜尋業務的命運。如今,Google的搜尋業務不僅沒有被OpenAI等AI新勢力所顛覆,相反它的AI模型還實現了對後者的反超。與Gemini3相比,OpenAI在8月份發佈的GPT-5令人略顯失望。一些評論者認為它「表現平平」,使用者也抱怨其風格變得更正式。據Google表示,Gemini 3在LM Arena等多個模型榜單上的表現優於GPT-5及其他模型,尤其在模擬推理以及長時間規劃方面表現更佳,這有助於提升依賴工具或網際網路的AI智能體的實際能力。在早期的AI競賽中,經歷過一些磕磕絆絆之後,Google總算是「漸入佳境」了。從使用者活躍度上看,Gemini應用的月活使用者已超過6.5億,僅次於ChatGPT的7-8億周活使用者(如果換算成月活可能在10億以上)。每月有超過20億人通過搜尋裡的AI Overviews使用Gemini;還有約1300萬開發者在自己的產品中整合了Gemini。這些數字表明Google正在逐漸縮短與OpenAI在AI領域的差距,作為GoogleAI總負責人的哈薩比斯也可以鬆口氣了。各方面都最強才叫AGI實現還要5-10年哈薩比斯表示,Google仍然在追求做「各方面都最強」的模型。在他看來,這才是真正意義上的通用模型,也是最終通向通用人工智慧(AGI)系統的關鍵組成部分。從之前的幾個版本到Gemini3,Google一直在修正Gemini模型的一些短板,使其在程式設計、推理、數學等能力上更進一步。比如,此次Gemini 3就在2.5之上迭代,一方面升級它的基礎能力,另一方鞏固在多模態領域的優勢。哈薩比斯認為未來AI的技術路線會越來越收斂,而擁有一個通用、全能的基礎模型將是一切的地基。除此次發佈的Gemini3 Pro外,Gemini模型家族裡的其他成員也在打磨中,等到這些模型陸續就位之後,Google還將在產品分層服務上提供更大的靈活度。簡單來說,就是更強的性能,更低的價格。正如哈薩比斯所言:「大方向是每一代新模型,都要在整體能力上更強,同時所需算力更便宜、更高效,帶來更有競爭力的價格和更低的時延」。目前,哈薩比斯在世界模型研究上花時間最多,在他看來這是通往AGI的關鍵元件。同樣,他也認為未來世界模型也將迎來類似ChatGPT那樣的「爆發時刻」。但最大的挑戰是推理/服務成本,以及還要解決在更長時間尺度上保持世界一致性等關鍵難題,才能迎來真正的「破圈」時刻。哈薩比斯表示,目前世界模型已經有了一些內部用例,比如用來訓練其他智能體、機器人系統等。未來可能會出現一些非常酷的外部應用場景。哈薩比斯仍然堅持他對通用人工智慧(AGI)時間表的預測。他認為距離真正意義上的完全實現AGI還有五到十年,而Gemini 3將成為未來打造更強大AI的重要平台,還需要在現有模型不斷變強的基礎上再取得一兩次關鍵性突破。在通往AGI的路上,哈薩比斯同樣也有算力焦慮。他坦言「即便將現在全世界的算力加在一起,也不夠滿足我們想做的所有事情」。因此,需要在不同項目之間衡量算力投入的回報。比如,研究上的收益、新產品探索的價值,或是直接的收入等。除了追求AGI,哈薩比斯還在帶領DeepMind在AlphaEvolve等一些科學領域進一步擴展。穿越AI泡沫的底氣談到AI泡沫,哈薩比斯整體上還是比較樂觀的,但他認為仍然存在一定的泡沫。「那些幾乎沒有什麼的項目,種子輪估值就能到幾十億美元,這在邏輯上有點行不通。」對比這些泡沫,哈薩比斯認為Google的位置非常好。就DeepMind而言,既有紮實營收,同時又承擔著Google「AI動力艙」的重任;既有Gemini模型及App,還有基於Gemini的NotebookLM等AI優先產品。哈薩比斯表示,目前AI已經在Google現有業務中看到了立竿見影的回報:正在為搜尋、YouTube、雲等業務「加功率」。作為DeepMind的聯合創始人,哈薩比斯早在12年前選擇與Google「聯手」時,已經考量過雙方合作的價值:Google可以提供海量的算力資源,同時它的產品又天然適合用AI去增強。目前,這條路正一步步變成現實。在哈薩比斯看來,Google與DeepMind的結合,讓現在的Google在AI競爭中處於一個非常有利的位置,使它有機會穿越泡沫,笑到最後。 (新智元)
AI還不具備真正的創造力 | DeepMind CEO,All-In Summit
近日,在美國All-In AI峰會上,Google DeepMind首席執行官、新晉諾貝爾獎得主Demis Hassabis接受了一場深度對話。本次圓桌對話全面探討了AI的前沿進展與未來圖景,話題涵蓋了從顛覆性的可互動世界模型Genie,到AI在機器人、科學發現、藥物研發領域的革命性應用,再到對AGI實現路徑。Demis Hassabis詳細闡述了Genie模型如何通過“逆向工程”學習並生成物理世界,顛覆了傳統3D渲染引擎的底層邏輯,更提出了未來娛樂形態將是頂尖創作者主導下的“共同創作”模式。此外,Demis Hassabis駁斥了當前AI系統已達“博士級智能”的說法,稱之為“無稽之談”,並犀利地指出其在穩定性和真正的通用性上仍有根本性缺陷。同時,他也對AI性能提升趨於停滯的觀點予以否認,認為在更廣闊的多模態領域,進步速度依然驚人。01 諾獎榮耀與Google的AI引擎室您在得知獲得諾貝爾獎時身在何處,又是如何得知的?DeepMind在龐大的Alphabet組織中扮演著怎樣的角色,您的具體職責是什麼?以及您的團隊規模有多大,人員構成是怎樣的,其中科學家和工程師的比例如何?Demis Hassabis: 那是一個非常奇妙的時刻。關於它的一切都感覺不真實,包括他們通知你的方式。他們會在全球直播前大約10分鐘才告訴你。當你接到來自瑞典的電話時,你真的會感到有些不知所措。那是每一位科學家都夢寐以求的電話。接下來的頒獎典禮,是在瑞典與王室成員共度一整周。那感覺太棒了,畢竟這項傳統已經延續了120年。而最不可思議的部分,是他們會從保險庫中取出諾貝爾獎的簽名冊,讓你在所有前輩偉人的名字旁邊簽下自己的名字。所以,當翻閱著冊子,看到Feynman、Marie Curie、Einstein和Niels Bohr等等這些名字,一頁頁地回溯歷史,然後將自己的名字也寫進那本冊子裡,那真是一個令人難以置信的瞬間。(關於是否預感會獲獎)你會聽到一些傳聞。但在當今這個時代,他們還能把消息封鎖得如此之好,確實令人驚嘆。諾貝爾獎對瑞典來說就像是國寶一樣。所以你會聽到一些說法,比如 AlphaFold 的成就或許值得這份殊榮。而且,他們不僅看重科學突破本身,也看重其在真實世界中產生的影響。而這種影響力的顯現,有時需要二三十年。所以,你永遠無法確定獲獎的時刻是否會到來,會在何時到來。因此,這確實是一個驚喜。(關於DeepMind在Alphabet中的角色)我們現在將 DeepMind,或者說合併後的 Google DeepMind,視為整個 Google 和 Alphabet 的核心引擎室。幾年前,我們將 Google 和 Alphabet 內部所有不同的人工智慧項目,包括 DeepMind,都整合到了一起,成立了一個新的部門,彙集了各個團隊的優勢。我現在通常這樣描述我們的角色:我們是整個 Google 和 Alphabet 的動力之源。我們建構的核心模型 Gemini,以及許多其他模型,比如視訊模型和互動式世界模型,現在都已接入 Google 的各個體系中。可以說,幾乎每一款產品、每一個使用者介面,背後都有我們 AI 模型的支援。如今,無論是通過 AI Overview、AI 模式還是 Gemini 應用,已有數十億使用者在與 Gemini 模型進行互動。而這僅僅是一個開始。我們正逐步將其融入 Workspace、Gmail 等產品中。所以,這對於我們來說是一個絕佳的機會,既能進行最前沿的研究,又能立刻將成果交付給數十億使用者。(關於團隊構成)我負責的 Google DeepMind 部門大約有5000人。其中,我估計超過80%是工程師和擁有博士學位的研究人員。所以,這個數字大約在三四千人。02 AI正在對我們世界的直觀物理學進行逆向工程你們前發佈一款名為Genie的世界模型,它具體是什麼?其是它與傳統3D渲染引擎有何根本不同?從長遠來看,當這類模型發展到更高階段,例如第五代時,它將引領我們走向何方,其最終的應用目標又是什麼?Demis Hassabis: 它非常驚豔。大家現在看到的所有視訊和可互動世界,實際上都是由 AI 生成的。你可以看到有人在實際控制畫面,它不是一段靜態視訊,而是完全由文字提示生成。然後,人們就可以用方向鍵和空格鍵來控制這個三維環境。所以,你在這裡看到的每一個像素都是即時生成的。在玩家或互動者到達世界的某個區域之前,那個區域是不存在的。這些豐富的細節隨後會展現出來,這個畫面是完全生成的,不是真實視訊。它生成了一個人正在粉刷自己房間的場景,在牆上塗鴉。接著,玩家會向右看,然後再看回來。世界的這個部分剛才還不存在,現在它被創造出來了。當玩家回頭看時,又能看到自己剛才留下的塗鴉痕跡。我再強調一次,你看到的每一個像素都是完全由 AI 生成的。你還可以輸入“穿著小雞服裝的人”或“一輛水上摩托艇”,模型會即時將這些元素加入到場景中。這真的相當令人震撼。(關於與3D引擎的不同)這個模型實際上是在對我們世界中的直觀物理學進行逆向工程。它觀看了數百萬個關於我們世界的視訊,包括YouTube視訊等,並僅從這些視覺資訊中,就反向推匯出了世界運行的大部分規律。它目前還不完美,但已經能作為使用者,在許許多多不同的世界裡,生成一到兩分鐘連貫的互動體驗。在後面的演示中,你還可以控制沙灘上的一隻狗,或者一隻水母,所以它的能力不侷限於和人類相關的場景。它通過觀看視訊和一些來自遊戲引擎的合成資料進行訓練,並自己完成了逆向工程。這個項目對我個人而言意義非凡,同時也讓我感到非常震撼。因為在90年代,我職業生涯早期曾為視訊遊戲編寫過AI和圖形引擎。我至今還記得,當時要手動編寫所有多邊形和物理引擎是多麼困難。而現在看到Genie毫不費力地就實現了這一切,水面的反射、材質的流動方式、物體的行為等等,全都自然天成,這實在是太神奇了。(關於模型的未來方向)我們之所以建構這類模型,是因為我們始終認為,儘管我們像其他團隊一樣,在Gemini這樣的大語言模型上不斷取得進展,但從一開始,我們就希望Gemini是一個多模態模型。我們希望它能接收任何類型的輸入,無論是圖像、音訊還是視訊,並且能輸出任何內容。我們對此非常感興趣,因為要讓AI實現真正的通用,要建構AGI,我們認為AGI系統必須能夠理解我們周圍的物理世界,而不僅僅是語言或數學等抽象世界。當然,這對於機器人技術的發展也至關重要,這可能正是當前機器人技術所缺失的環節。同樣的道理也適用於智能眼鏡這類裝置,一個能在日常生活中為你提供幫助的智能眼鏡助手,必須能夠理解你所處的物理環境,以及我們世界中直觀物理學的運作方式。因此,我們認為,建構像Genie這樣的模型,以及我們最好的文字到視訊模型Veo,都是我們建構世界模型的具體體現。這些模型能夠理解世界的動態和物理規律。如果你的系統能夠生成一個世界,那就證明它已經理解了那個世界的運行法則。03 AGI系統必須能夠理解我們周圍的物理世界Genie這類世界模型最終是否會通往機器人領域?能否介紹一下當前視覺-語言-行動模型的最新進展是怎樣的?一個能夠通過攝影機觀察世界,通過自然語言接收指令,並據此在物理世界中執行相應動作的通用系統,目前發展到了什麼階段?Demis Hassabis: 完全正確。如果你體驗一下Gemini的Gemini Live版本,將手機攝影機對準你周圍的世界,你會發現它對物理世界的理解已經達到了一種近乎神奇的程度。你可以將下一步想像為,把這種能力整合到像眼鏡這樣更便攜的裝置中。到那時,它就會成為一個日常助手,可以在你逛街時為你推薦事物,或者我們可以將它嵌入到Google地圖中。在機器人領域,我們建構了名為“Gemini機器人模型”的系統,這可以看作是在Gemini的基礎上,用額外的機器人資料進行微調後的版本。這個項目最酷的一點,也是我們今年夏天通過一些演示所展示的,是我們設定了一些桌面場景,有兩隻機械臂在桌面上與物體互動,你可以直接和機器人對話。比如,你可以說“把黃色的物體放進紅色的桶裡”,它就能理解這條語言指令,並將其轉化為具體的機械動作。這就是多模態模型相比於純粹的機器人專用模型所具備的強大之處,它能夠將對真實世界的理解融入到與你的互動中。所以最終,這種模型既能提供你所需要的使用者介面體驗,也能賦予機器人安全探索世界所必需的理解力。04 “機器人Android系統”與人形設計的價值是否意味著你們最終能夠打造出一種通用機器人領域的“Android”系統,一個能夠賦能大量機器人裝置和公司的底層作業系統?您認為人形是機器人一種好的外形設計嗎,這種形態在現實世界中是否有其存在的意義?對於未來五到七年,您預計機器人的普及規模會達到何種量級,是成千上萬,還是數百萬甚至上億?Demis Hassabis:這當然是我們正在追求的策略之一,可以稱之為一種“Android模式”,即為整個機器人領域提供一個近乎作業系統的底層。但除此之外,還有一些非常有趣的方向,比如將我們最新的模型與特定的機器人類型和設計進行垂直整合,並進行某種端到端的學習。所以,這兩種策略都非常有前景,我們也在同時推進。(關於人形設計的價值)我認為未來這兩者都會有市場。實際上,大概在五到十年前,我的看法是,我們會為不同的任務設計特定形態的機器人。而且我認為在工業領域,工業機器人肯定會是這樣,你可以根據具體任務來最佳化機器人的形態,無論是在實驗室還是在生產線上,你需要的機器人類型都會大相逕庭。但另一方面,對於通用或個人使用的機器人,要讓它們與我們的日常生活環境互動,人形形態可能就非常重要了。因為,我們身邊的物理世界顯然是圍繞人類的需求來設計的。比如台階、門廊,所有這些都是為我們自己設計的。與其去改造現實世界中的這一切,設計出一種能與我們現有世界無縫協作的機器人形態,可能會是更容易的方案。所以我認為,有充分的理由相信,對於這類任務,人形形態可能至關重要。當然,我也認為,特種形態的機器人同樣會有一席之地。(關於機器人普及的時間和規模)我確實有,並且在這個問題上思考了很久。我感覺,我們在機器人技術領域仍處於比較早期的階段。我相信在未來幾年內,機器人領域會出現一個真正令人驚嘆的“高光時刻”。但我認為,演算法還需要進一步發展。這些機器人模型所依賴的通用模型,需要變得更強大、更可靠,需要更好地理解周圍的世界。我相信這在未來幾年內能夠實現。此外,在硬體方面,關鍵問題在於,我認為我們最終會擁有數百萬台機器人來服務社會、提高生產力。但關鍵在於,當你和硬體專家交流時,他們會問:硬體發展到那個節點,才算達到了適合大規模量產的水平?因為一旦你開始投資建廠,準備生產成千上萬台特定型號的機器人,再想快速迭代更新機器人設計就變得非常困難了。所以這是一個時機問題,如果你過早地決定量產,可能六個月後就會出現一款更可靠、更出色、更靈巧的下一代機器人。如果用電腦領域的發展來類比,我們當前所處的階段,是不是有點像上世紀70年代,PC-DOS系統剛剛出現的那個時期?有這個可能。或許我們確實處於類似的早期階段,但關鍵區別在於發展的速度。我們現在用一年時間就走完了過去十年的路,所以必須進行快速迭代。可以說,現在的一年,就相當於過去的十年。05 如今的AI還不具備真正的創造力在科學領域,AI有那些最讓您感到興奮的應用前景和潛在突破,我們還需要什麼樣的模型才能實現這些突破?當前AI在科學發現的能力上還缺失那些關鍵環節?另外,從人類的角度來看,您如何定義“創造力”這一概念?Demis Hassabis: 利用AI加速科學發現並助力人類健康等事業,正是我為AI奮鬥終生的原因。我認為這是AI最重要的使命。我相信,如果我們能以正確的方式建構AGI,它將成為推動科學發展的終極工具。在DeepMind,我們的工作正是在不斷為此開闢道路。其中最著名的當然是AlphaFold,但實際上,我們已經將AI系統應用於眾多科學領域,例如材料設計、輔助控制核聚變反應堆中的電漿體、天氣預測以及解答奧數難題。這些複雜的難題,基本上用同類型的系統,再經過一些額外的微調就能解決。所以我認為,我們目前對AI潛力的探索還僅僅是冰山一角,還有很多能力尚待開發。在我看來,如今的AI還不具備真正的創造力,因為它還無法提出新的科學猜想或假設。它或許可以證明你給定的命題,但無法自己構想出全新的想法或理論。因此,我認為這恰恰是檢驗AGI的標準之一。(關於創造力的定義)我認為創造力是我們常在歷史上最傑出的科學家和藝術家身上所推崇的那種直覺的飛躍。它或許源於類比或類比推理。關於我們人類科學家如何實現這一點,心理學和神經科學領域有許多理論。但一個很好的測試方法是,給一個現代AI系統設定1901年的知識截止點,看它能否像愛因斯坦在1905年那樣提出狹義相對論。如果它做到了,那就意味著我們觸及到了非常本質的東西,或許就離AGI不遠了。另一個例子是我們的AlphaGo程序,它曾擊敗世界圍棋冠軍。它不僅贏得了比賽,還為圍棋這項運動開創了前所未有的新策略,比如在第二局下出的著名的第37手,如今已成為棋界研究的經典。但是,一個AI系統能否創造出一款像圍棋這樣優雅、精妙、富有美感的遊戲,而不僅僅是發明一種新策略呢?目前來看,答案是否定的。所以我認為,這正是真正的通用系統,也就是AGI系統所缺失的能力之一,它理應也具備這些能力。06 “博士級智能”是無稽之談很多人認為AGI將在幾年內實現,您似乎不完全認同這個觀點。能否從系統架構的理解出發,具體分析一下當前實現AGI還缺少那些關鍵環節,瓶頸究竟在那裡?與此同時,有報告和評估體係指出,大語言模型的性能正在趨同,且每一代模型性能的提升速度似乎在放緩,您認為這個說法基本屬實嗎?Demis Hassabis: 我認為這裡的根本問題在於,我們能否模仿最頂尖人類科學家所能實現的那種直覺飛躍,而不僅僅是漸進式的提升。我常說,一個偉大的科學家與一個優秀的科學家之間的區別在於,儘管兩者都具備很強的技術能力,但偉大的科學家更具創造力。他們或許能從另一個學科領域發現某種模式,並將其通過類比或模式匹配應用到自己正在研究的問題上。我相信AI終有一天能做到這一點,但目前它還不具備實現這種突破所必需的推理能力和某些思維能力。我還認為,我們目前缺乏穩定性。你常聽到我們的一些競爭對手說,現在的這些是“博士級智能”。我認為這種說法是無稽之恩。它們不是博士級智能。它們或許在某些方面具備博士水準的能力,但遠非在所有領域都能穩定地達到博士水平,而這恰恰是通用智能的定義。事實上,我們和今天的聊天機器人互動時都會發現,只要換種方式提問,它們甚至會在高中數學或簡單計數這類問題上犯低級錯誤。這對於一個真正的AGI來說是不應該發生的。所以我認為,我們距離一個能做到上述所有事情的AGI,可能還有五到十年的時間。另一個缺失的關鍵是持續學習,即系統能夠線上學習新知識或隨時調整自身行為的能力。我認為,許多這類核心能力目前仍然缺失。或許Scaling Law能幫助我們實現目標,但如果讓我預測的話,我認為我們可能還需要一到兩個關鍵的理論突破,而這大概需要未來五年左右的時間。(關於模型性能趨同和提升放緩的說法)不,我們在內部並沒有看到這種情況,我們依然保持著極快的進步速度。而且,我們看待問題的視野也更廣。你可以看看我們的Genie、Veo等模型。07 AI創作的兩個趨勢以Nano-Banana為例,這類先進的圖像生成工具不僅效果驚人,更重要的是其指令理解的精準性和結果的一致性,這是否意味著我們正在走向一個“創造力民主化”的未來,讓每個人都能輕鬆創作?在推動工具普及的同時,這些AI工具又將如何賦能頂尖的專業創作者?未來我們會進入一個完全個性化的娛樂世界,每個人都能即時生成自己想要的內容,還是社會仍然需要由創作者提供、供大家共同分享的文化產品?從文化角度看,我們是會各自沉浸在自己的虛擬世界,還是會繼續擁有共同的故事?Demis Hassabis: Nano-Banana的效果簡直不可思議。我認為很多創意工具的未來就是這樣:你只需要憑感覺與它互動,或者直接和它對話就行了。而且它們的表現會足夠穩定,就拿Nano-Banana來說,它之所以如此出色,不僅在於它是頂級的、最先進的圖像生成器,更在於它的一致性。它能精準理解並執行你的指令,在你要求改變某個部分時,能保持其他所有元素不變。這樣你就可以通過不斷迭代,最終得到你想要的效果。我認為這就是未來創意工具的形態,它指明了發展的方向,人們非常喜愛它,也樂於用它來創作。這實現了“創造力的民主化”,我認為這非常了不起。我記得小時候,為了學Photoshop,我得買很多書,照著書學習如何從圖像中移除物體、如何填充、如何羽化等複雜操作。現在,任何人用Nano-Banana都能做到,他們只需向軟體描述想讓它做什麼,它就能自動完成。(關於賦能專業創作者)未來會出現兩個趨勢。一方面是這些創作工具的普及化,讓每個人都能輕鬆上手和創作,而不必像我們過去那樣去學習極其複雜的使用者體驗和使用者介面。但另一方面,我們也正在與頂尖的電影製作人、創意人士和藝術家合作,比如我的好朋友、著名導演Darren Aronofsky。他們正在幫助我們設計新一代的工具,告訴我們需要那些功能。他和他的團隊已經在使用Veo等工具來製作電影。通過觀察並與他們合作,我們獲益匪淺。我們發現,這些工具也極大地提升了頂尖專業人士的能力和效率。那些最優秀的專業創作者,他們的生產力突然之間可以提升10倍甚至100倍。他們可以低成本地嘗試腦海中各式各樣的創意,並最終創作出理想的作品。所以我認為,這兩方面是平行不悖的。我們既在為普通使用者和YouTube博主們推動工具的普及,同時,在高端專業領域,情況也同樣如此。要用好這些工具,並獲得頂級輸出,並非人人都能做到,這本身也需要技巧,更需要頂尖創者的視野、敘事能力和獨特風格。我認為,這些工具讓他們如虎添翼,他們也非常享受這種能快速迭代創作過程的體驗。(關於未來娛樂的形態)我確實預見到一個新世界的到來。我從90年代起就以遊戲設計師和程式設計師的身份入行,所以我經常思考這個問題。我認為我們正在見證的,正是娛樂行業未來的開端,它可能會催生一種全新的內容類型或藝術形式。在這種形式中,存在著一定程度的“共同創作”。我仍然相信,頂尖的、富有遠見的創作者依然會是核心,他們將創造出引人入勝的體驗和動態的故事情節,即便使用相同的工具,他們作品的質量也會遠超普通人。因此,未來可能會有數百萬人沉浸在這些大師建構的世界裡,但同時,他們或許也能參與到這個世界某些部分的共同創造中。而那位主要的創作者,其角色更像是一個世界的“主編”。這就是我預見的未來幾年可能發生的事,而且我也很想用Genie這樣的技術親自去探索這個方向。08 AI的能源挑戰能否介紹一下您負責的另一家公司Isomorphic及其在藥物發現領域的革新性工作?這些AI發現的候選藥物預計何時能進入臨床試驗階段?在技術層面,這項工作多大程度上需要開發新的模型架構,你們是如何將機率性模型與確定性模型相結合的?此外,關於AI的能源需求問題,您認為模型和硬體的進步能否有效降低能耗?最後,請您描繪一下十年後,在AI影響下的世界圖景。Demis Hassabis: 當然可以。我還負責營運Isomorphic,這是我們基於AlphaFold在蛋白質摺疊領域的突破而分拆成立的一家公司,旨在徹底革新藥物發現的過程。當然,瞭解蛋白質的結構只是藥物發現的第一步。你可以將Isomorphic想像成一個平台,它正在建構一系列與AlphaFold功能銜接的系統,用於解決後續問題,例如設計出能夠精準結合蛋白質靶點又沒有副作用的化學分子。我認為在未來十年,我們有望將藥物發現所需的時間從數年甚至十年,縮短到幾周乃至幾天。(關於進入臨床試驗的時間點)我們目前正在搭建這個平台,並與禮來(Eli Lilly)和諾華(Novartis)等頂尖藥企建立了良好的合作關係。此外,我們也有自己的內部藥物研發項目。我預計,我們將在明年某個時間點進入臨床前階段。我們將候選藥物交付給製藥公司,由他們接手推進後續的開發。我們目前正致力於癌症、免疫學和腫瘤學等領域的研究,並與MD Anderson癌症中心等機構合作。(關於混合模型架構)這是個非常好的問題。實際上,至少在目前以及未來五年左右,我們建構的都是所謂的混合模型。AlphaFold本身就是一個混合模型。它有一個學習元件,也就是你提到的機率性部分,它基於神經網路和Transformer架構,從所有可用資料中進行學習。但與此同時,在生物和化學的許多場景中,我們並沒有足夠的資料來讓模型從零學起。因此,你還必須將一些已知的化學和物理規則內建到模型中。例如,在AlphaFold中,我們設定了原子間化學鍵的角度限制,並確保模型理解原子之間不能發生重疊等基本物理原則。理論上,模型或許也能自己學會這些,但這會極大浪費它的學習能力。因此,將這些規則作為硬性約束,效率會高得多。現在,所有混合系統的難點都在於此——AlphaGo也是一個混合系統,它有一個學習圍棋棋局模式的神經網路,上層則是一個用於規劃的蒙特卡洛樹搜尋演算法。真正的挑戰在於,你如何將一個學習系統與一個更偏向人工設計的定製化系統完美地結合起來,並讓它們高效協同工作?這其實非常困難。我認為最終的目標是,當你通過混合系統驗證了某個元件的有效性之後,你應該想辦法將這個元件的能力整合、“反哺”到學習元件中去。因為,如果能實現端到端學習,直接從原始資料一步到位地預測出最終結果,那永遠是更好的方案。所以,一旦你通過某個混合系統取得進展,你就要回頭去反思,看看能否將這一成功經驗和知識,完全融入到學習系統本身。(關於AI的能源需求問題)有趣的是,我認為這兩種趨勢是同時存在的。一方面,我們,尤其是在Google和DeepMind,極其注重提升模型的效率和性能,因為我們有大量的內部應用場景。例如,我們需要每天為全球數十億使用者提供AI Overviews服務,這就要求系統必須做到極致的高效、低延遲和低服務成本。為此,我們開創了許多技術,比如“蒸餾”,也就是用一個強大的內部大模型來訓練一個更小的模型,讓小模型模仿大模型的行為。如果你看過去兩年的進展,要達到同等性能,模型的效率已經提升了10倍,甚至100倍。那麼,為什麼總需求沒有下降呢?因為我們離AGI還很遠。這意味著在不斷提升推理服務效率的同時,我們還希望在更大規模上訓練和試驗新的前沿模型。所以,這兩個方面的情況都是真實的。但最終,從能源的角度看,我認為AI系統對能源和氣候變化等領域的貢獻,將遠遠超過它自身的消耗。AI將在提升電網系統效率、設計新材料、發現新能源等方面發揮巨大作用。我相信,在未來十年,AI在這些領域的貢獻所帶來的價值,將遠遠超過它今天所消耗的能源。(關於十年後的世界)在AI領域,十年太漫長了,有時十周就如同一個時代。但我確實認為,未來十年內我們將迎來真正的、完全的AGI。我認為,它的到來將開啟一個科學的全新黃金時代,一場新的文藝復興。屆時,我們將看到它為從能源到人類健康的各個領域帶來深遠的益處。 (數字開物)
DeepMind CEO定義世界模型標準:不僅理解物理世界,還能創造它
從與現實難辨的AI視訊,到細緻到流水與倒影都符合物理的虛擬世界,再到會在推理中主動呼叫工具自我修正的模型——這並非科幻小說,而是DeepMind最新的AI工具,已經展現的驚人能力。8月13日消息,GoogleDeepMind首席執行官德米斯・哈薩比斯(Demis Hassabis)近日做客播客節目《Release Notes》,全面闡述了DeepMind最新一系列技術突破背後的思路與戰略佈局,其中世界模型Genie 3的突破性進展成為核心亮點。在這場深度對話中,他勾勒出一個令人振奮又充滿挑戰的AI新紀元:從AlphaGo征服圍棋,到Deep Think斬獲數學奧賽金牌;從生成逼真世界的Genie 3,到即將誕生的“全能模型”,我們正站在通向AGI的關鍵轉折點。然而,即便AI已能創造一個完整的虛擬宇宙,它依然可能在國際象棋中違規行棋,這種“參差型智能”的悖論,正揭示了人工智慧最深層的秘密。哈薩比斯指出,“思考型模型” (the thinking models)是通向通用人工智慧(AGI)的必經之路;DeepMind的終極目標是推出融合語言、多媒體、物理推理與生成能力的全能模型(Omni Model),其核心支撐正是世界模型的持續進化,最終將實現全面且一致的智能表現,推動通用人工智慧(AGI)安全落地。此次訪談由GoogleAI Studio產品負責人洛根・基爾帕特里克(Logan Kilpatrick)主持,以下為對話內容實錄:1. 思考型模型:從遊戲AI到AGI的演進之路基爾帕特里克:今天我們的嘉賓是GoogleDeepMind首席執行官德米斯·哈薩比斯。你好德米斯,感謝你的到來,很高興能一起聊聊我們在過去幾個月裡取得的大量發佈成果和進展。哈薩比斯:你好,很高興來到這裡。基爾帕特里克:我想先談談這種前所未有的進展勢頭。我看到DeepMind近期在不斷推出各種成果,包括Deep Think、IMO金牌、Genie 3,還有其他大約五十個項目,在過去兩個月內接連面世,快到讓人忘記它們的存在,因為一切都在飛速推進。我想聽聽你對這種進展與勢頭的總體看法。哈薩比斯:是的,這種情形令人振奮。過去幾年,我們一直在積蓄力量,加快發佈和研發的節奏,如今正看到這些努力的結果。我認為這是行業一個非常令人興奮的時刻。幾乎每天都有新成果面世,我們團隊幾乎每天都在發佈新東西,即便是在內部,也很難跟上進度,更不用說整個領域了。看到這一切我非常自豪,也對我們近期的一些成果感到非常滿意。基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲AI中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:我之前看了《The Thinking Game》那部視訊,一邊觀看一邊做筆記,發現 DeepMind 團隊其實很早就踏上了這條道路,而且和你們當年用強化學習(RL)解決問題的過程有許多相似之處。比如,AlphaFold 曾面臨的資料瓶頸,就和我們現在在程式設計等領域缺乏專家資料的困境十分相似。這種情況,會讓你產生似曾相識的感覺嗎?哈薩比斯:確實如此。我們很早就堅定選擇了強化學習,這是 2010 年我們做出的首批關鍵決策之一,與深度學習並列。當時的 Atari 項目,是第一個能真正完成有趣任務的深度強化學習系統——它能夠直接從螢幕像素中學習玩上世紀 70 年代的Atari遊戲,而且表現超過任何人類玩家。更重要的是,它能“開箱即用”地玩任何 Atari 遊戲,這種通用性證明了新技術具備規模化並行揮實際價值的潛力。我個人從小下國際象棋時,就會思考如何最佳化自己的思維過程,這也促使我去研究神經科學,探索大腦的工作機制,並借助人工智慧這一強大的工具,將智慧凝結為數字形態。當然,現有系統在某些方面的表現已經非常出色,但在一些相對簡單的任務上仍有不足,比如高中數學、基礎邏輯,或者某些經過特殊設計的小遊戲。它們體現出一種“參差型智能”——在某些維度上表現驚人,但在另一些方面則很容易暴露弱點。2. 從機器人到通用助理 Genie 3 的多維度潛力基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲 AI 中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:許多人看了Genie 3的演示後感到震撼,有人甚至誇張地說“這是模擬理論的證據”。它確實和用遊戲推動強化學習發展有關。回顧Genie 3,你覺得結果和當初的預期一致嗎?我覺得,提升模型玩遊戲的能力,未必必然帶來如今的世界模型。哈薩比斯:Genie 3彙集了多條研究路徑與想法。我們一直把棋類或電子遊戲作為挑戰環境,不僅用來推動演算法進步,也用來合成資料。我們會建構極為逼真的虛擬環境,用來訓練系統理解物理世界。我們想要建構的世界模型,不僅要理解物理結構、材料特性、液體流動,還要理解生物和人類的行為,因為AGI必須理解物理世界,才能在其中運作。這對機器人至關重要,也對通用助理項目如Project Astra(Gemini Live)不可或缺。驗證世界模型的一種方法,就是讓它生成與現實一致的虛擬世界,比如打開水龍頭會有水流出,鏡子裡會映出自己等等。Genie 3之所以驚人,就在於它生成的世界具有一致性。你轉身離開,再回頭,世界保持原樣。這說明它的底層物理理解相當出色。基爾帕特里克:你認為使用者將如何使用 Genie?我們的目標是僅將它作為改進Gemini和其他機器人項目的工具,還是你覺得它本身還有更多用途?哈薩比斯:它在多個維度上都令人興奮。首先,我們已經在用它進行訓練。例如,我們有一個名為SIMA(Simulated Agent,模擬智能體)的遊戲智能體,可以開箱即用地操作並玩一款現有的電腦遊戲。它有時表現不錯,有時不夠理想。令人有趣的是,我們可以把SIMA放進Genie 3里,相當於一個AI在另一個AI的“腦海”中行動。SIMA會根據目標(比如找到房間裡的鑰匙)發出操作指令,而Genie 3則即時生成遊戲世界。這樣可以創造無限的訓練資料,對機器人訓練或AGI系統的通用訓練都有價值。同時,它在互動娛樂領域也有巨大潛力。我有很多想法去打造下一代遊戲,甚至可能催生一種介於電影與遊戲之間的新型娛樂形式。最後,從科學家的角度看,最有趣的是這能告訴我們關於現實世界、物理規律,甚至模擬理論的什麼資訊。當你在深夜生成整片虛擬世界時,你會不自覺地思考:現實世界的本質是什麼?這也是我整個職業生涯推動自己用AI服務科學的動力所在。我認為,像Veo 3和Genie 3這樣的模型,若換個角度觀察,能給我們關於現實本質的啟示。3. AI的能力鴻溝 強大生成力與低級錯誤並存基爾帕特里克:這正好能回到我們之前談到的“參差型智能”問題。一方面,我們已經有了能生成完整虛擬世界的驚人系統;另一方面,讓 Gemini下國際象棋,我可能都能贏它,而且有時它甚至會違反規則。我們最近宣佈了 DeepMind 與 Kaggle 合作推出“遊戲競技場”,讓模型在各種遊戲中對戰並接受測試。你怎麼看?哈薩比斯:這反映了一個更普遍的問題——如今的系統(無論是 Gemini 還是競爭對手的模型)在很多方面都很強大:它們能從文字生成模擬世界,能理解視訊,能解數學題、做科研。然而,用過這些聊天機器人的人都知道,它們的能力邊界很容易被觸碰到。在我看來,這種缺乏一致性,正是它們距離實現完全AGI還差的一步。一個普通人不應該如此輕易就能發現系統的低級缺陷。我們或許已經解決了過去那種“數 strawberry 裡的R”這種用於評估模型細節關注度的低級問題,但依然存在一些小學生都能輕鬆完成、而模型卻失敗的任務。這很可能是因為在推理、規劃、記憶等方面,仍然缺少關鍵性的創新。此外,我們現有的評測基準中,很多已經接近飽和。比如在 AIME 數學測試上,Deep Think 最近的成績已經達到 99.2%,幾乎沒有提升空間,這甚至可能意味著測試本身已經失去區分力。因此,我們需要設計更新、更難、覆蓋面更廣的評測,用來考察模型的物理直覺、世界理解,以及安全性(比如防止欺騙行為)。我對“遊戲競技場”非常期待,因為它延續了我們最初做遊戲 AI 的初衷。遊戲是乾淨的測試環境,有客觀分數,沒有人為主觀打分;它們會隨著系統能力的提升自動增加難度,還可以不斷引入更複雜的遊戲。未來甚至能讓 AI 自創新遊戲、彼此對戰學習,從而避免資料洩露或過擬合。這種多智能體環境將成為長期有效的重要評測基準之一。4. 能力內化 VS 外部呼叫:經驗驅動的決策基爾帕特里克:我過去兩年的感悟是,生活中的許多問題,本質上都是一種評測。工作表現是一種評測,你看待事物的方式也是評測。在遊戲領域,我們有明確的約束條件和客觀的結果,但一旦擴展到非遊戲領域,“真值”就很難定義。比如,在人類日常任務中,如何建構強化學習環境?你覺得在非遊戲環境中,我們該怎麼捕捉這些特徵?哈薩比斯:如何定義獎勵函數或目標函數,一直是強化學習在真實且混亂的環境中面臨的最大挑戰。現實世界中,並不存在單一的目標函數,而是多個目標並存,而且這些目標的權重會隨著情緒、環境、職業階段等因素不斷變化。我認為,未來的通用系統必須學會理解使用者的真實意圖,並將其轉化為一組可最佳化的獎勵函數。這涉及元認知或“元強化學習”(meta-RL)的研究——在主要系統之上再建立一個系統,用來推測主要系統的最優目標函數。這類研究在十年前的 AlphaGo、AlphaZero 遊戲階段我們就已經開始嘗試,如今很可能會再次成為研究重點。基爾帕特里克:我覺得我們應該現在就著手,因為感覺 DeepMind 十年前做的事,正好就是今天大家追趕的前沿。回到“思考趨勢”和“遊戲趨勢”,我們歷史上經歷了多種模型擴展路徑——預訓練、後訓練、資料擴展、算力擴展,後來又有了推理擴展,比如 Deep Think 就得益於推理能力的提升。現在似乎“工具”成了新的擴展維度。你覺得,給模型配備物理模擬器作為工具,會是未來的方向之一嗎?哈薩比斯:工具使用是 AI 系統最重要的能力之一。思考型系統的核心在於,它能在思考過程中主動呼叫工具,比如搜尋引擎、數學程序、程式設計環境,然後基於工具提供的結果調整規劃。有趣的是,那些能力應當放進主模型(即“主腦”),那些應當作為外部工具,這在數字系統中並不像在人類身上那麼清晰。對於人類來說,不屬於身體的就是工具;但在 AI 中,這條界限很模糊。比如,下棋能力是直接內建在主模型中,還是呼叫 Stockfish 或 AlphaZero 作為外部工具?經驗表明,如果某項能力(如數學、程式設計)能提升整體推理水平,就應該放入主模型;但如果它可能削弱模型的其他通用能力,則更適合作為外部工具。這完全是一個經驗性問題,需要在實踐中不斷試驗和驗證。5. AGI的綜合能力藍圖 語言、多媒體與物理推理一體化基爾帕特里克:很多開發者現在都會問,模型已經不再是過去那種靜態的權重,而是在推理過程中能呼叫各種工具,功能越來越像一個完整的系統。這正在改變人們建構應用的方式。你怎麼看這種從“模型”到“系統”的轉變?對開發者有什麼建議?哈薩比斯:模型的進化速度非常快,尤其是當工具能力與規劃、思考能力結合後,其潛力可能呈指數級擴張,因為它們可以用全新的方式組合使用工具。我建議開發者多思考:那些工具對 AI 的能力最有價值?然後著手建構這些工具。即便有了工具呼叫和智能體能力,這些系統本身還不是成品,它們依然需要大量的產品化工作。產品經理和設計師面臨的挑戰,是必須預判一年後的技術狀態,並為那個未來去設計產品,同時允許底層引擎在 3 到 6 個月,甚至更短的周期內進行一次重大更新。基爾帕特里克:現在感覺幾乎是每兩周就有一次更新。哈薩比斯:確實是這種節奏,而且短期內不會改變。未來整個網路生態和應用的運作方式,都將因為智能體系統能夠靈活使用工具而發生深刻變化。基爾帕特里克:Genie 3 的進展令人震撼,很多人都迫不及待想親手體驗。我希望能盡快讓更多使用者用上它。從世界模型和 Genie 的角度看,下一步是什麼?哈薩比斯:我們正在努力提升 Genie 的運行效率,好讓更多使用者盡快體驗。目前它還處於有限預覽階段。我們也在思考最佳的發佈方式,希望使用者能夠分享自己創作的世界,互相體驗、投票,從而形成一個活躍的社區。但有一個關鍵問題是,如何保持世界生成的一致性——當某個提示生成了一個極具吸引力的世界,我們怎樣確保後來者也能復現它?這是我們正在攻關的技術挑戰之一。更長遠來看,Genie、Veo、Gemini 這些目前相對獨立的模型,正逐漸走向融合,形成我們所謂的“全能模型”(Omni Model)。它既能處理語言、多媒體,又能進行物理推理和內容生成,這才是 AGI 應該具備的綜合能力。基爾帕特里克:我們之前還開玩笑說,Genie 是我們製作和玩遊戲的絕佳藉口。哈薩比斯:沒錯。基爾帕特里克:這樣 DeepMind 就成了一家遊戲公司了。哈薩比斯:這是我的秘密計畫。等 AGI 安全落地之後,我就會用這些工具去製作史上最偉大的遊戲——那將是我的夢想成真。基爾帕特里克:會是終極版的《主題公園》嗎?哈薩比斯:也許吧,不過我還有更宏大的遊戲創意。基爾帕特里克:我們在 AI Studio 裡做了很多“氛圍程式設計”功能,如果一切順利,你在 AGI 誕生前就可以不斷拋出這些創意,自己打造一個“德米斯遊戲競技場”。哈薩比斯:這已經在我的高優先順序待辦清單上了。基爾帕特里克:前段時間我們慶祝每月處理 980 兆個 token,如今已經突破千兆(quadrillion)大關,我們還特地為你準備了一個紀念品。哈薩比斯:謝謝,這真是太棒了。基爾帕特里克:我們還會做一些其他版本。哈薩比斯:非常感謝。基爾帕特里克:今天非常感謝你抽出時間做客,也感謝你和 DeepMind 團隊為未來所付出的努力與深夜的思考。這次訪談很愉快。哈薩比斯:我也很高興能和你交流,謝謝。 (騰訊科技)
AI的未來是兩類模型的結合|DeepMind CEO 萬字實錄
3月25日,DeepMind 的聯合創始人兼CEO  Demis Hassabis在劍橋大學發表演講,演講中分享了DeepMind的歷程,DeepMind創立初被視為旨在建構AGI的“阿波羅計畫” ,還回顧了AI發展的兩種主要路徑,並將遊戲作為AI試驗場,遊戲領域的成功是手段目的,是為了開發能解決現實問題的通用問題。此外談論了GoogleDeepMind 正在開發的 AI 工具如何能夠大幅加快從健康到環境等科學領域的發現。Demis Hassabis表示,AI 發展的下一步是將AlphaGo 所展現的那類基於智能體的模型(它們能在遊戲等有限領域內高效搜尋並找到優良解決方案)與Gemini 這類更通用的模型相結合,將高效規劃和搜尋能力與對世界廣泛理解的能力相結合。任何在自然界中能夠生成或被發現的、具有真實物理結構的模式,或許都能被像AlphaFold 這樣的經典學習演算法高效地發現和建模。DeepMind押注的方向是強化學習以及強化學習和深度學習的結合,深度學習用於對環境和世界建模,強化學習則用來制定計畫、尋找解決方案並在環境中行動。以下是本次演講實錄 經數位開物團隊編譯整理能回到劍橋真是太好了。每次回到劍橋,都感覺像回家一樣,心裡暖暖的。特別是這座演講廳,我記得曾對朋友們說過,也許有一天我會回到這裡做演講,宣佈AGI的到來,或許還會有一個機器人走上台,震驚全場。今天我不會這麼做,也許幾年後我會再回來,帶給大家那樣的演講。對我而言,我的AI 之旅始於遊戲,特別是國際象棋,我從四歲開始下棋,這段經歷引導我開始思考「思考」本身。我們的大腦是如何構思出這些計畫和想法的?我們是如何解決問題的?又該如何改進?這讓我深深著迷,甚至可能比下棋本身更吸引我的是背後的實際思考過程。我第一次接觸電腦和AI 就是透過西洋棋,當時我嘗試使用非常早期的西洋棋電腦,我想這就是我的第一台象棋電腦。它們是實體棋盤,你必須實際按下棋盤上的方格來移動棋子。當然,我們本來應該用這些像棋電腦來訓練開局理論,學習更多國際象棋知識。但我記得當時我完全被一個事實迷住了:竟然有人能給這個看起來毫無生氣的塑膠塊程式設計,讓它能和你對弈得如此出色。我當時真的非常好奇這是怎麼做到的,怎麼會有人能編出這樣的程式。後來在我十幾歲的時候,我自己用Amiga 500 電腦做了實驗——那可是80 年代末90 年代初非常棒的一款家用電腦——並自己動手編寫了類似奧賽羅這種遊戲的AI 程式。那真是我第一次嘗到AI 的滋味,從那一刻起我就被深深吸引了。因此,我很早就下定決心,要將我的整個職業生涯都投入到推動這項技術的前沿發展中去。在2010 年,我們在倫敦創立了DeepMind。當時我們確實是把它看作一項旨在建構AGI的'阿波羅計畫'——這是我們當時的想法。也就是一種真正通用的、能執行人類所有認知能力的AI。一個真正意義上的通用AI 系統。實際上,這個想法真正源自於圖靈和他的圖靈機,即一種能夠計算任何可計算之物的機器,正如圖靈透過其圖靈機所證明的那樣。這對我來說是重要的基礎,也是我在劍橋的課堂上學到的核心內容之一:電腦科學與計算理論的基石,這些都是由圖靈等人在40 和50 年代奠定的著名理論。我們在2010 年創立DeepMind。令人感慨的是,這已經是將近15 年前了。但當時,幾乎沒什麼人在研究AI,這在幾乎人人都在談論AI 的今天看來,簡直難以置信。僅僅十幾年間,AI 領域的發展速度之快令人驚嘆,而我們顯然也參與並推動了這段令人興奮的旅程。我們DeepMind 從創立之初的使命是負責任地建構AI,以造福全人類。但我們最初的表述方式是分成兩步:第一步,解決智能;第二步,用智能解決所有其他問題。在2010 年,這個想法聽起來非常大膽甚至有些不切實際。你可以想像,拿著這樣的使命去向創投融資會是什麼情景。這聽起來相當瘋狂。但我至今依然從根本上堅信這一點。而且我認為,越來越多的人開始意識到,以通用方式建構的AI,確實可能對幾乎所有領域帶來深刻的、變革性的影響。這顯然就是我們使命宣言的第二部分。對我而言,這意味著利用AI 加速科學發現本身、推動醫學進步,並增進我們對周圍宇宙的理解。回想我們剛創業時,或者說我在90 年代在這裡(劍橋)學習的時候,廣義上講,建構AI 主要有兩種路徑。一種是專家系統的路徑,也就是將解決方案直接預先程式設計到系統中。例如在90 年代非常有名的、擊敗了國際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov) 的Deep Blue,這或許是專家系統的巔峰之作。但專家系統的問題在於它們無法處理預期之外的情況,這也是它們從未真正擴展到完全通用智慧的原因。如果發生了開發者沒有預先設定好的意外狀況,系統本身就沒有任何機制可以應付。它們的設計想法主要源自於邏輯系統,因此往往比較死板、脆弱,適應性差。相較之下,現代方法則是基於學習系統。這些系統能夠自主學習,直接從原始經驗或資料中學習,遵循第一原理。其靈感較來自神經科學。顯然,我們今天這類系統的潛力在於,它們有望超越我們這些程式設計師或系統設計者所擁有的知識範疇,解決我們還不知道答案的問題。因此,在2010 年代初,我們自然而然地從遊戲入手。遊戲在我生命中扮演了多重角色:首先,我用它來訓練自己的思維;後來,我為電腦遊戲開發遊戲和AI;最終,也是第三種方式,我們用遊戲來訓練我們的AI 系統。遊戲是 AI 系統的絕佳試驗場。 你可以從非常簡單的遊戲開始,例如70 年代的Atari 遊戲。而DQN 這個系統,是第一個能夠直接從原始資料中學習的端對端學習系統。在DQN 的案例中,輸入就是螢幕上的原始像素。系統沒有被告知任何關於遊戲規則或其控制對象的資訊。它唯一的目標就是基於輸入的視訊串流(或者說像素串流)來最大化遊戲得分。大約在2013 年,我們用DQN 掌握了各種不同的Atari 遊戲。之後,我們將這些系統進一步擴展,去挑戰我認為是遊戲AI 領域的終極難題:發展出能夠在圍棋這項運動上達到甚至超越世界冠軍水準的系統。圍棋,無疑是人類發明過的最複雜的遊戲之一。要理解圍棋的複雜性,一個方法是看它的可能性:圍棋中可能的局面數量達到了 10 的 170 次方。這個數字遠遠超出可觀測宇宙中的原子總數。這背後重要的一點是:你不可能用暴力窮舉的方法來制定圍棋策略。那是不可能的,計算上是完全不可行的,所以你必須採取更聰明的方法。然後在2016 年,我們迎來了一個舉世矚目的時刻:在一場百萬美元的挑戰賽中,我們的程式AlphaGo 擊敗了十次世界冠軍、韓國傳奇棋手李世石九段。全球有兩億人觀看了這場比賽。 AlphaGo 不僅贏得了比賽,更重要的是,它甚至開創了全新的、原創的圍棋策略。要知道,圍棋已經有數千年歷史,職業圍棋也發展了數百年,但AlphaGo 仍然能發現人類從未見過的下法。所以,這再次向我揭示了這類系統在發明和發現新知識的潛力。當然,當時我們談論的只是遊戲領域的知識,但我的夢想顯然是將這種能力推廣到科學發現的所有領域。那麼這些系統是如何運作的呢?我們基本上是透過一套自我對弈機制來訓練這些神經網路的。這其實就是AlphaGo 以及後續系統,如AlphaGo Zero 和Alpha Zero 所採用的方法。這些後續系統將我們為圍棋開發的技術進行了泛化,能夠從零開始學習玩任何雙人遊戲。初始時,系統是版本一,它對遊戲幾乎一無所知,只瞭解規則,因此下棋是隨機的。然後,你讓這個系統與自身對弈大約10 萬局。這10 萬局遊戲就產生了一個包含各種棋局位置的新資料庫。基於這個資料庫,你訓練出第二個版本,也就是一個稍微改進了的模型,版本二。這個版本經過訓練,能夠預測在任何給定棋局下最可能的著法,以及那一方(黑棋或白棋) 更可能從當前局面獲勝,還有他們獲勝的機率是多少。接著,你可以用版本二與版本一對弈,進行例如100 局的比賽。如果版本二以顯著優勢勝出(例如勝率達到55%) ,就用版本二替換版本一,並用新的對局創建一個質量更高的遊戲資料庫。然後,你再訓練出版本三系統。如果你重複這個過程大約17 到18 次,系統就能在24 小時甚至更短的時間內,從最初的隨機亂下,進化到第17 或18 版時,棋力超越世界冠軍的水平。所以,能親眼見證這個自我提升的過程在如此短的時間內完成,是相當不可思議的。那麼,這些神經網路究竟在做什麼呢?它們實際上是將圍棋那種極其龐大、難以處理的搜尋空間(大約有10 的170 次方種可能性) ,壓縮到在幾分鐘計算時間內就可以處理的規模。它是如何做到的呢?透過利用神經網路來有效引導搜尋機制,從而縮小搜尋範圍。想像一下,所有可能的下法構成一棵巨大的“可能性之樹”,樹上的每個節點代表一個圍棋棋局。神經網路的功能是,讓你不必漫無目的地檢查所有可能性,而是引導你集中探索那些最有趣、最有價值的分支路線。最後,當思考時間用盡時,你就選擇迄今為止所看到的最佳、最有希望的那條路線。這自然而然地引導我們,將這種能力應用於不僅僅是圍棋,而是任何雙人完美資訊遊戲。令人驚訝的是,它甚至能夠在國際象棋領域發現全新的策略和風格。考慮到當時像Stockfish 這樣的國際象棋程式已經非常強大,這一點尤其了不起。而Alpha Zero 當時竟然能在西洋棋上擊敗Stockfish,這幾乎被認為是件不可能的事。 Alpha Zero 不僅擊敗了Stockfish更重要的是它下出了一些名局。在其中一盤最著名的對局的這個特定局面中,白方的AlphaZero 正處於勝勢,因為它選擇了犧牲子力來換取機動性。大多數西洋棋電腦傾向於保全子力,而如果你懂西洋棋,你會看到圖中黑棋雖然子力佔優,但棋子幾乎動彈不得,都被困在角落裡。正是AlphaZero 主動棄子,獲得了這種機動優勢。對於人類特級大師和頂尖棋手而言,這種下法不僅非常有效,而且具有極高的美學價值,是一種優美的棋風。所以,AlphaZero 能夠發現這種全新的、動態的下棋方式,確實非常了不起。而當時的世界冠軍Magnus Carlsen,在研究了AlphaZero 的對局和相關書籍後將AlphaZero 的許多思路融入了自己的棋風,並藉此統治了國際象棋界將近十年。所以,在DeepMind 成立後的頭十年左右,我們在遊戲人工智慧領域取得了一系列里程碑式的突破。但當然,這些成就只是我們實現更宏大目標的訓練場。玩遊戲本身並非終點而是一種手段。我們的目的是創造出能夠廣泛應用於解決現實世界問題的演算法。那麼,我們在現實世界中尋找那些問題來應用這些技術呢?不只是科學問題,也包括工業領域的問題。我們主要依據三個標準來判斷一個問題是否適合用我們最初為遊戲開發的這類AI 系統、理念和演算法來解決。第一,我們尋找那些可以被描述為龐大的組合搜尋空間的問題。這類問題通常極為複雜,組合方式太多,無法透過暴力破解找到解決方案。但關鍵在於,其中可能存在某種潛在結構,我們的神經網路可以學習並利用這種結構來有效地引導搜尋。第二,我們尋找能夠用明確的目標函數或某種可最佳化的度量來描述的問題。在遊戲中,這很簡單,例如最大化得分或贏得比賽。但實際上,許多現實世界的問題也可以被簡化、歸結為幾個你希望最大化的度量或目標函數。最後,第三個標準是,你需要有充足的數據或經驗可供學習,並且需要有一個精確且高效的模擬器,以便產生更多的合成數據來補充你所擁有的真實數據。事實證明,如果你從這個角度審視,會發現有大量問題都符合這些標準,其中包含了科學領域的許多重要難題。對我而言,有一個問題一直縈繞在我心頭,實際上從我還在劍橋讀本科、初次接觸到它時就是如此,那就是蛋白質折疊問題。對於不熟悉生物學和蛋白質的朋友,我來簡單介紹一下。蛋白質至關重要,它們是生命的基石。生物體內的幾乎所有功能,從神經元放電到肌纖維收縮,都依賴蛋白質。可以說,正是蛋白質使生命成為可能。那麼,蛋白質折疊問題其實很容易描述。基本上,蛋白質是由其基因序列或遺傳序列所定義,而這個序列決定了胺基酸序列。在自然界中,這條胺基酸鏈會自發性地折疊成一個通常非常精美的特定蛋白質結構。所以,過程就是從遺傳序列到蛋白質結構。蛋白質結構,也就是它的三維結構之所以非常重要,是因為它在很大程度上決定了蛋白質的功能,也就是它在生物體內扮演的角色。當然,結構並非功能的全部,但它確實是決定蛋白質在自然界中實際作用的關鍵因素。因此,蛋白質摺疊問題歸根究底就是:我們能否只根據一維的胺基酸序列,直接預測出蛋白質的三維結構?我們能否透過計算,從這個序列出發,預測出那個極為複雜的立體結構呢?那麼,為什麼這個問題如此困難呢?著名蛋白質研究員Leventhal 在1960 年代提出了一個猜想,後來被稱為Leventhal 悖論。他計算出,一個普通蛋白質可能形成的形狀數量大約是天文數字般的10 的300 次方。然而,在自然界和生物體內,蛋白質卻能在短短幾毫秒內自發性地完成摺疊。這就是悖論所在:既然有這麼多的可能性,自然界是如何做到快速折疊的呢?或者說,物理定律是如何實現這個過程的?這個悖論也給了我們希望:既然物理過程能解決這個問題(並且在體內每秒發生數十億次) ,那麼透過計算也一定能在合理的時間內找到解決方案,這個問題在計算上應該是可行的。此外,吸引我投身這個問題的另一個原因是,有一個名為CASP的競賽,科學家們透過艱苦的工作,使用電子顯微鏡等尖端且昂貴的設備來解析蛋白質結構。他們會將那些剛剛解析出來、尚未公開發表的結構提供給CASP 作為競賽題目。這樣一來,競賽主辦單位掌握著實際的基準真相,而來參賽的數百支計算團隊則利用各自的計算方法嘗試預測這些未知結構。等到夏末,主辦單位公佈真實的結構,大家就可以將預測結果與真實結構進行比較,評估預測的誤差。於是,我們在2016 年啟動了Alpha Fold 項目,實際上差不多就在我們從韓國首爾的AlphaGo 人機大戰回來後的第二天。我們當時覺得,科技已經夠成熟,是時候將其應用於遊戲領域之外,去解決那些真正有意義的重大難題了。我們稱這類問題為“根節點問題”,因為一旦解決,它們就能開闢出全新的研究分支和發現途徑,後續的大量工作都可以在此基礎上展開。蛋白質折疊正是這類問題的典型代表。我們在2018 年首次帶著Alpha Fold 1 參加了CASP 競賽。我們從2016 年開始這項工作。幾年後,Alpha Fold 1 準備就緒,我們用它參加了CASP 13 競賽。你可以從圖表中看到,在此之前的十年間,在最難預測的蛋白質類別中,獲勝團隊的最高得分一直徘徊不前。這個分數可以大致理解為一個準確度百分比,衡量預測出的胺基酸有多少比例位於真實結構的正確位置。如圖所示,過去十年進展甚微,分數一直卡在60 分左右的水平。而實驗科學家告訴我們,預測精度需要達到90 分這個門檻——也就是達到原子級精度——計算方法才真正具有與實驗方法相媲美的實用價值,實驗科學家們才能真正依賴這些計算預測,而不必總是進行那些費時費力的實驗工作來解析結構。生物學家們普遍認為,一個博士生需要花費整個博士生涯,也就是四到五年的時間,才能解析出僅僅一個蛋白質的結構。科學界已知的蛋白質有2 億種,而人類蛋白質體中就有2 萬種。我們憑藉Alpha Fold 1 贏得了蛋白質結構預測競賽,並且比次優系統好了將近50%。 Alpha Fold 1 首次將機器學習技術作為系統的核心組件引入。但這還不足以達到原子級精度。我們必須從頭開始,利用現有的經驗教訓,為Alpha Fold 2 重新設計架構,並運用從Alpha Fold 1 中學到的一切,最終達到了這種原子級精度。這使得競賽組織者在2020 年底宣佈,蛋白質折疊問題已解決。Alpha Fold 不僅極其精確,而且速度極快——它能在幾秒鐘內完成一個普通蛋白質的折疊。我們很快就意識到,實際上可以預測所有已知的2 億種蛋白質的結構。在隨後大約一年的時間裡,我們利用Google Cloud 上的大量計算資源完成了所有蛋白質的結構預測,然後透過我們歐洲生物資訊研究所的同事們,將這些數據在一個資料庫中免費公開發布,為全球任何人提供了免費、無限制的存取權。實驗方法確定一個蛋白質結構就需要四到五年時間,預測這2 億個蛋白質結構,相當於在一年內完成了實驗方法下需要十億年博士研究才能完成的工作量。科學研究能被加速到何種程度,可見一斑。這也開啟了全新的探索領域。許多蛋白質結構,特別是那些研究較少的生物體(例如某些特定類型的植物),雖然對科學和農業研究極為重要,但其結構卻鮮有被解析和公開。現在,這些結構資料都唾手可得了。此外,有了這2 億個結構數據,我們可以在宏觀層面分析跨物種的結構模式,甚至是元結構,探索演化過程中的共通性。這確實為結構生物學開啟了引人入勝的新研究方向,目前正有待探索。我們從一開始就將安全問題置於優先地位,並嚴肅對待作為AI 前沿開拓者的責任。在這個計畫上,我們諮詢了超過30 位生物安全和生物倫理學專家,確保向世界公開成果所帶來的益處遠超任何潛在風險。全球幾乎每個國家都有研究人員在使用Alpha Fold,總數已超過200 萬人。這項工作已被引用超過3 萬次,已成為生物學研究的標準工具之一。在座的許多博士生們,希望你們也在使用並受益於它。如今,Alpha Fold 的應用幾乎遍及生物學和醫學研究的各個領域。在過去幾年裡,我們持續開發,取得更多進展並改善系統。今年早些時候,我們發布了供學術界使用的Alpha Fold 3。我們將Alpha Fold 3 的能力擴展到處理互動作用。 Alpha Fold 2 主要提供蛋白質的靜態結構快照,但生物學本質上是一個動態過程。因此,理解不同生物分子元件之間如何相互作用至關重要。這包括蛋白質與其他蛋白質的相互作用,也包括蛋白質與生命必需的其他分子(如DNA 和RNA) 以及配體的相互作用。配體是小分子,例如藥物化合物。瞭解蛋白質與這些化合物的結合方式非常重要。此外,我們也開發了Alpha Proteo,它致力於解決蛋白質設計的逆向問題,並同樣基於Alpha Fold 的技術。也就是說,如果想設計一種自然界中可能不存在的新型蛋白質,賦予其特定任務或功能,就需要確定能夠形成這種特定結構的胺基酸序列和基因序列。這便是嘗試設計出能夠執行新穎功能的新結構,在設計藥物、抗生素和抗體等方面具有極高的應用價值。無論是早期在遊戲領域的成就,或是後來在科學研究工作,其核心都在於解決棘手的搜尋問題。面對極為複雜的問題和海量的可能解決方案必須找到最優解。這在巨大的組合搜尋空間中,單靠暴力破解是無法實現的。因此,必須訓練一個神經網路模型。此模型能學習問題的拓樸結構,從而有效地引導搜尋過程,以找到預定目標的最佳解決方案。這是一種極為通用的方法。以Go 為例,我們利用系統尋找最佳落子點。若將棋盤節點想像成化學化合物,那就是在化學空間中尋找最佳分子。找到最佳分子,便是藥物設計的開端-找到能特異性與目標標靶結合、而不影響其他分子的化合物,進而減少副作用和毒性。目前我們用於設計這些分子的技術,與先前的原理一脈相承,標誌著我們向藥物發現領域邁出了新的一步。我們相信,生物學正進入一個可稱為數位生物學的新時代。生物學在其最根本層面上是一個資訊處理系統,在不斷抵抗周圍環境的熵增,這或許是生命的本質。它是一個極為複雜且具湧現性的資訊處理系統。 AI 正是應對這種複雜性的理想工具。正如數學是描述物理學和物理現象的完美語言,AI 有潛力成為描述生物學的完美語言。AI 尤其擅長處理像生物學這樣的動態系統中複雜、湧現的行為和相互作用。Alpha Fold 正是這理念的力證。希望十年後回望,它不僅是一個孤立的突破,而是真正開啟了數位生物學的黃金新紀元。AI 的應用遠不止生物學,它可以廣泛用於科學、數學、醫學等領域。我們已取得一系列突破,涵蓋健康(透過視網膜掃描識別眼疾)、新材料發現、助力等離子體約束和聚變反應器、研發更快演算法(如AI 發現更快的矩陣乘法演算法)、天氣預測,甚至在量子計算機及其糾錯方面提供幫助。 AI 的應用潛力幾乎涵蓋所有領域。因此,我們鼓勵大學加強多學科交叉合作,將AI 應用於特定專業領域的關鍵問題。相信未來5 到10 年,透過這種方式可以取得許多進展。最後,談談更宏觀的視角:通往AGI 的路徑以及相關進展。 我們在對世界進行一般性理解的各個方面都取得了很大進展,有時稱之為世界模型。去年底發布的VO2 影片模型就是一個例子。 VO2 是目前最先進的影片產生技術,能僅憑文字描述或單張靜態影像產生影片。其中一些影片效果驚人。例如那個切番茄的視頻,堪稱視頻模型的圖靈測試。通常模型會出錯,例如番茄復原、切到手指或刀移位。但VO2 能較好地處理,說明系統為了產生逼真效果,必須深刻理解現實世界的物理規律。再例如藍莓掉入水中的氣泡效果,僅根據文字生成,卻準確地模擬了物理現象。還有卡通人物的運動、蜜蜂的飛行等,都展現了模型對物理和動態的理解。五年前,如果有人告訴我無需專門編程、僅靠學習就能達到這種效果,我會覺得難以置信。然而,這些學習系統竟能透過觀看海量YouTube 影片學習到現實世界的物理規律。這展現了學習系統驚人的能力。我們已經在這方面取得了進展,並且透過Genie 2 專案更進了一步。這讓我得以再次運用我在遊戲領域的經驗。 Genie 2 將相關的視覺輸出或理解模型提升到了新的水平。現在,使用者僅憑一條文字指令,就能產生一個完整的遊戲。例如,我們曾輸入指令:「生成一個可玩世界,玩家扮演一個身處未來城市的機器人」。系統隨之產生了對應的遊戲畫面,玩家可以用QWE 鍵和箭頭鍵控制機器人。目前,這個生成世界的連貫性只能維持幾秒鐘,但我們正在努力延長這個時間,目標是讓遊戲世界的連貫性可以持續數分鐘。這樣一來,使用者就能真正體驗到我所謂的世界模型──一種對真實世界及其互動規律、物理法則的深刻理解。我們一直非常專注於AI 技術的安全問題。早在2010 年,當AI 領域還鮮有人問津時,我們就已經開始為這項技術未來可能的成功進行規劃和準備。我們當初設想這會是一個長達二十年的使命,令人欣慰的是,十五年過去,我們基本上仍行走在預定的軌道上。我們當時就意識到,如果真要建構這類具有變革力量的系統和技術,就必須承擔起重大的責任,確保它們以安全、負責任的方式部署。為此,我們開發了名為Synth ID 的技術系統。該系統利用AI 技術,具體是一個對抗性AI 系統,對影像的像素、文字或音訊進行微調,嵌入人眼或人耳無法察覺的無形浮水印。但專門的偵測系統能夠辨識出這些經過處理的內容是合成生成的影像,無論其形式是音訊、影像或影片。隨著此類技術日益普及,能夠輕鬆區分合成內容和真實內容的能力,其重要性將愈發凸顯。AI 展現出巨大的潛力,有望幫助我們應對從氣候變遷到公共衛生等最嚴峻的全球性挑戰。但顯而易見,這項技術將深刻影響社會中的每一個人。因此,至關重要的一點是,相關決策不能僅由技術專家掌握,而需要社會各界的廣泛利害關係人參與深入的溝通和互動。令人欣喜的是,過去幾年AI 的主流化帶來了積極的現象,許多國家的政府及社會各界都開始高度關注AI。國際高峰會的召開也極具意義,例如,英國幾年前在Bletchley Park主辦的首屆峰會,匯集了各國政府首腦、學術界和公民社會代表,共同探討如何為AI 技術發展設立恰當的“護欄”,確保我們既能擁抱機遇,又能有效減輕潛在風險。鑑於AI 技術正以指數級的速度發展和改進,這種跨界對話與合作只會變得越來越重要。對於如何推進AI 發展,我的看法不同於矽谷盛行的「快速行動,打破常規」的信條。雖然這種模式催生了許多創新和我們日常使用的技術,但我認為它並不適用於AI 這樣具有深遠變革力量的技術。恰恰相反,我們應該採用科學方法,以謙遜和尊重的態度對待它——這是這項技術應得的審慎。我們必須承認,關於AI 的未來發展,仍有許多未知數,它畢竟是一項非常新的技術。我相信,只要以極其審慎的態度和富有遠見的規劃來推進,就能夠充分發掘AI 的益處,並將其潛在的負面影響降至最低。然而,這一切的前提是,我們必須從現在就開始相關的研究和深入討論。我們目前正在建立自己的大型多模態模型系列,稱為Gemini。其目標是整合先前各種模型的精華與優勢,建構成一個統一強大的系統。最新發布的Gemini 2.0 版本,在眾多領先的基準測試中都達到了當前最佳水平。我們正利用Gemini 推動下一代助手的發展,我對這個方向充滿期待,並稱之為通用助手,內部專案代號為Project Astra。設想一下,你可以將這樣的助手安裝在手機、智慧眼鏡或其他裝置上,它就像一個能伴隨你進入現實世界的個人助手,幫助你豐富日常生活體驗,或提升工作效率。AI 發展的下一步是將AlphaGo 所展現的那類基於智能體的模型(它們能在遊戲等有限領域內高效搜尋並找到優良解決方案)與Gemini 這類更通用的模型相結合。我們期望將這類搜尋與規劃系統,建構於(如Gemini 所具備的)能夠理解現實世界運作方式的世界模型基礎之上,從而使其能夠在現實世界中進行規劃並達成目標。這對於機器人技術的實現和應用至關重要。我相信在未來兩到三年內,機器人技術將迎來飛躍的進展,成為一個極為重要的領域。最後,我想就這一切進展的深層意義提出一個推測,特別是回溯到Alan Turing 為奠定電腦科學基礎所做的奠基性工作。從某種意義上說,我視自己為圖靈理念的傳承者和實踐者,致力於探索圖靈機和經典計算的思想邊界究竟在那裡。我常常思考P=MP 問題──這或許是受到了曾經在此地聆聽的某場講座的啟發。作為計算機科學領域的一個著名難題,它探討的是:對於經典計算系統而言,那些類型的問題是容易解決的?目前,量子計算領域的研究如火如荼,無論是在劍橋還是在Google,都有許多傑出的工作正在進行中。人們普遍認為,許多複雜問題,包括模擬眾多真實世界的系統,都需要依賴量子運算才能解決。然而,我的猜想是:經典的圖靈機,也就是我們建構AI 系統所依賴的經典計算機,其能力可能遠超乎我們過去的認知。 以AlphaFold 和蛋白質折疊為例:蛋白質本質上是量子系統,在原子尺度上運作。理論上似乎需要進行量子模擬才能精確解析其三維結構。但我們卻成功地利用神經網路近似地解決了這個問題。這啟發了我一個想法,任何在自然界中能夠生成或被發現的、具有真實物理結構的模式,或許都能被像AlphaFold 這樣的經典學習演算法高效地發現和建模。 如果這個猜想最終被證實,它將對量子力學乃至基礎物理學產生極​​其深遠的影響。這也是我個人及眾多同事熱切希望探索的方向——借助這些日益強大的經典AI 系統,我們或許能更深入地揭示現實世界的真正本質。這讓我回想起多年前我投身人工智慧領域的初衷。我始終相信,以這種方式建構的通用人工智慧,能夠成為理解我們周圍宇宙以及我們在其中位置的終極通用工具。觀眾1提問:在神經科學領域,您是否遇到過您認為值得解決並且至今仍值得解決,以助於我們更好地理解生物智能和人工智慧的根節點問題?確實有很多這樣的問題。我的博士研究主題是記憶和想像力,也就是關於未來思考和規劃。我當時非常想弄清楚大腦是如何完成這些功能的。研究發現海馬體同時參與了這兩個過程,所以我們或許可以利用我們的一些演算法來模擬它。因此,我認為這裡面有很多關鍵點。當然,還有很多宏大的問題,像是創造力、夢境、意識等等。我認為,建構AI ,然後將其與人類心智進行比較,是我們在這些「根節點問題」上取得進展的最佳途徑之一。 例如,意識的本質是什麼?大腦基質的物理實現與在矽基上透過演算法模擬它相比,是否存在某些特殊之處。觀眾2提問:第一,DeepMind 是在深度學習革命之前成立的,如果深度學習沒有像後來那樣發展起來,當時的心態如何?又打算如何繼續前進?第二,鑑於您在處理極具挑戰性的高維度問題方面經驗豐富,且梯度下降及其變體只能達到局部最優解,是否曾對這些系統竟然能起作用感到驚訝?另外,是否認為自然界在很大程度上是次優的,因此有可能建立一個更優化的「自然」?第一個問題很棒。將公司命名為DeepMind,部分原因是「Deep」指涉深度學習。當時,深度學習的早期形式已開始普及,例如Jeffrey Hinton 在幾年前發明的玻爾茲曼機和分層神經網路等技術。對於當時在學術界接觸它的人而言,這似乎是個極具前景的方向。我們押注的另一項技巧是強化學習以及兩者的結合。強化學習對於解決AlphaGo 這樣的問題至關重要。你需要深度學習來對環境和世界進行建模,然後需要強化學習來製訂計劃、找到解決方案並在世界中採取行動。強化學習現在再度流行,它對於解決AlphaGo 這類問題也至關重要。這需要兩部分配合:深度學習用於對環境和世界建模,而強化學習則用來製訂計劃、尋找解決方案並在環境中行動。我們當時之所以在它剛起步時就押注於此,主要基於兩點:首先,我們認識到經典方法,即專家系統,無法規模化。這也是我在求學和研究期間的體會之一——當時存在著推崇專家系統的不同'陣營'或'學派'。從學習中不僅能瞭解該做什麼,也能瞭解不該做什麼,以及為何某些方法行不通。我當時思考過這些經典方法,感覺它們永遠無法擴展到我想用人工智慧解決的那類問題的規模。相較之下,學習系統似乎擁有無限的潛力,儘管在初期讓它們取得任何顯著進展要困難得多,主要因為它們的規模還不夠大。我們在2010 年創立DeepMind 的另一個原因是,我們看到計算範式在硬體層面正在轉變,GPU 等技術開始興起——GPU 最初也是為遊戲發明的,結果發現智慧、遊戲和電腦圖形學,本質上都是矩陣乘法。所有這些不同的影響因素匯集到了一起。同時,在那之前的十年裡,對神經科學和fMRI 技術的理解也取得了長足的進展。因此,我感覺2010 年是將所有這些要素整合在一起的絕佳時機。我們當時下注,並非確信會成功,而是相當確信其他方法行不通。基本上,所謂的AI 寒冬就是因為人們試圖強行推廣那些專家系統而導致的。關於第二個問題,我想說的是,首先,這些系統最終能夠收斂,確實令人驚訝,我們起初並不確定。在最初的幾年裡毫無進展。如果你還記得Pong 這款早期電腦遊戲,非常簡單的模擬網球遊戲,我們甚至無法讓AI 得到一分。所以我們當時就在想:我們是不是太超前了,早了10 年或20 年?就像Babbage 和他的差分機一樣,想法很了不起,理論也行得通,但他最終還是早了50 年甚至100 年。我總是說,你希望自己領先時代五年,而不是五十年。否則,你會經歷很多痛苦,就像Babbage 那樣。我們當時確實擔心這一點,但後來演算法確實收斂了,這給了我們信心去攻克更難的問題。至於問題中關於自然界的部分,我的看法是,它們並非次優,實際上可能已經相當優化。因為它們經歷了漫長的演化過程──不僅是生物學意義上的生命演化,也包括地質和物理層面的演化。例如小行星和各種物理現象相互作用,它們能存續至今,是因為在漫長時間裡保持了穩定。如果一個系統能長期穩定,其內部很可能就蘊含著值得學習的結構。這是我的推測。觀眾3提問:您對建構高頻寬腦機介面及可植入式記憶與推理模組有何看法?這樣可以進一步增強人類自主進行探索發現的能力,而不僅僅是與雲端的AI 進行對話。是的,我對此領域很感興趣並持續關注,也曾協助建造腦電圖帽等裝置。當然,目前的問題在於這些裝置的解析度,即從大腦讀取訊號的精度,並且理想情況下我們希望它能同時具備讀寫功能。但我對Neurolink 這類項目,即植入大腦的晶片,非常著迷。顯然,目前這些技術主要是為了幫助例如退伍軍人等族群恢復身體功能。我認為這方面將會有驚人的進展,例如讓脊椎受傷的人能夠重新行走等等。我相信醫學領域將取得一些令人矚目的實質進展。在此之外,如果將來這類技術變得常規化,手術足夠安全,並且有可靠的操作方法,那麼我可以想像,這或許是人類跟上技術發展步伐的一種途徑。從某種意義上說,這與我們今天身邊無所不在的技術並無本質不同。我們每個人幾乎全天候帶著手機,還有電腦等裝置。我們幾乎已經與科技處於一種共生狀態。當然,將裝置植入體內會是更進一步,但我不太確定。這兩種狀態-技術植入體內與隨身攜帶技術,其間的差異究竟在那,是否有明確的界線。觀眾4問題:您提到Genie 2 模型目前能維持幾秒鐘的連貫性,並希望最終能達到分鐘等級。但我們玩的遊戲,需要近乎無限的連貫性。那麼,您認為這類模型未來將如何整合到實際工作流程中?或者更具體地說,您如何看待AI、您的模型以及您目前的研究在未來幾十年內融入遊戲開發?是的,我認為AI 將從多個方面融入遊戲領域。首先是作為工具,用於建立遊戲所需資產,如3D 模型、動畫等。我認為這些在未來幾年內就會出現。其次,AI 可用於遊戲平衡性的調整。想像一下,你設計了一款遊戲,AI 可在一夜間模擬百萬次遊戲過程,第二天設計師就能收到報告,指出不平衡之處,例如某個單位能力過強等等。再次,是Bug 測試,特別是對於開放世界遊戲。我以前製作過模擬遊戲和開放世界遊戲,它們的Bug 測試極其困難,因為其特點是玩家行為高度自由,遊戲需隨之回應。那麼如何測試一千萬玩家在遊戲中走出各自獨特的路徑呢?實際上,讓AI 玩家在發佈前進行大量測試,有助於發現並解決許多Bug。還有一點,我認為非常令人興奮,那就是更逼真的AI 角色,它們能夠推動故事情節發展。我們曾夢想擁有這樣的大型多人線上世界:其中的AI 角色具備智能,能根據玩家行為更新自身信念和故事線,從而讓世界感覺更加生動、真實。我認為我們正處於能夠建構這類遊戲的關口。最後,關於我們正在建立的世界模型,它更多是關於通用人工智慧。它代表了理解世界的能力──你的模型是否理解世界?如果模型能在一定時間內產生這個世界,顯然它必須在某種程度上理解其底層的物理規律。這更多是為了實現通用智能。至於像全像甲板一樣只需想像就能呈現一切的技術,或許擁有AGI 後可以實現,但目前看還需要一段時間。 (數位開物)